您的位置:首页 > 编程语言 > MATLAB

基于MATLAB的电商平台图片中文字的提取与识别(第四届泰迪杯全国数据挖掘竞赛A题)

2016-11-27 12:47 1276 查看
基于matalb电商平台图片中文字的识别

 
摘 要:随着电子商务的发展,电商平台越来越多得以图片形式展现商品信息。然而因商品信息图片中的内容和商品参数规格中的参数不一致或是采用图片的方式来规避对违禁过敏感词的检测等问题的出现,给电子商务网站的管理者带来了技术上的挑战。本文使用灰度、边缘检测、二值化、图形行分割和列分割等设计算法,先从图片中检测字符区域,提取出字符的最小外接矩阵并输出字符在原图中的位置范围。对给出的以box为后缀的训练集中的图片进行预处理,使得其大小一致,然后进行利用OCR算法进行字符的识别。最后使用检测集对模型进行测试并用F-score进行评价。

关键词:MATLAB  图像处理  文字提取  文字识别  OCR

The thesis title 
Abstract:With the rapiddevelopment of the e-commerce, the information of the commodity is now more and more displayed on it'spicture which will show at the website of the e-commerce. And
this is bring the website's managersome serious technical problem such as some dishonorable sellers implanting theillegal text into the picture to avoid the detection that against the illegaltext, beyond this, some unreal, exaggerated information was also
implantinginto the picture. This context usingthe algorithms like gray-scale, binaryzation and filter rejector in order todetect and extract the text from the picture and then output the text'scoordinates. Finally, we pre-processing the picture which postfix
is box tokeep it's size consitently, the next step we using the OCR to study the formerpicture that will help us indentify the others picture which needs to bereviewed.


Key words: MATLAB ,pre-processing of the picture, context extraction, OCR

1.挖掘目标

在电子商务蓬勃发展的今天,由于电子商务环境下用户无法接触商品实物,电商网站提供的商品信息是用户做出购买决定的重要依据。因为以图片形势展现的商品信息越来越多,其真实性与合法性的检测也越来越重要。

  本次数据挖掘建模主要针对京东商城所提供的图片,利用训练集中的商品图片,运用灰度、边缘检测等方法建立一个文字图片提取的模型,并输出字符在原图中的位置。然后对输出的图片进行处理,使其具有相同大小,然后利用OCR算法对字符进行文字识别,并输出结果。
2.分析方法及过程
2.1    利用imread算法输入彩色图像


商品图片中的文字可分为三种,如包含商品规格信息的文本类图片,加入后期说明性文字的商品展示图片,或是商品物品上本身包含文字的图片。若对模型的运行准确率和速度有较高的要求可设计算法将图片分类后再进行后续操作。

2.2   利用gray2rgb实现图片灰度化
  由于电商平台的图片基本都是三维彩色图片,不利于进行边缘检测,彩色图像是RGB,直接用rgb2gray,MATLAB并没有自带gray2rgb。灰度图像是个 N x M 矩阵。 N 和 M 为坐标,存储的数值是灰度深浅强度。RGB 为 N x M x 3 的矩阵。N和 M 为坐标,附带的 3 是 [红,绿,蓝] 三色,数值各取0-1.0 之间。转换上,如果灰度图像为 1024 x 768 大小,则要建立一个 1024 x 768 x 3 的矩阵。再在每一像素上添上颜色。

度直方图是数字图像处理中一个最简单、最有用的工具。它表示图像中具有每种灰度级的像素个数,反映图像中每种灰度出现的频率,是图像的最基本的统计特征。如图1-2给出了灰度化后图像的灰度直方图。灰度直方图的横坐标是它的灰度级,纵坐标是该灰度级出现的频率。

2.3   灰度图像边缘检测

  图像边缘是图像的最基本的特征,也是图像分割的重要依据。经典的边缘检测算法原理就是依据像素在某个邻域内的灰度变化规律来检测边缘。边缘检测算子的原理主要是对像素各个方向上的邻域的灰度变化率进行量化,通常使用基于方向导数求卷积。

  常见的边缘检测算子有四种:Roberts算子、Prewitt算子、Sobel算子、Laplacian算子

更多详情请见:http://download.csdn.net/detail/littlematchsalegirl/9694827
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐