您的位置:首页 > 编程语言 > Python开发

python 图片识别

2020-01-15 04:26 99 查看

简单分享下通过python来识别图片内的文字。


首先说一下环境,系统是在linux上(乌班图16.04),python版本为py3。


因为仅仅是测试一下,所以代码非常简单,但是却需要我们将几个库文件下载下来。


第一个先来安装一下PIL  

在Debian/Ubuntu Linux下直接通过apt安装:$ sudo apt-get install python-imagingMac和其他版本的Linux可以直接使用easy_install或pip安装,安装前需要把编译环境装好:$ sudo easy_install PIL如果安装失败,根据提示先把缺失的包(比如openjpeg)装上。 Windows平台就去PIL官方网站下载exe安装包。


第二步来安装pytesseract 

sudo pip3 install pytesseract

Tip: 如果没有sudo会提示权限不足。 

我的乌班图里存在py2 和 py3 两个版本,所以对应的,我们在通过pip安装软件的时候,如果直接pip install 那么软件会安装在py2的环境下。


最后一步是来安装tesseract-orc引擎 。

先来安装下引擎的依赖:

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install gcc
sudo apt-get install g++

sudo apt-get install automake

安装引擎:

sudo apt-get install tesseract-ocr

安装语言文件(英文、中文简体)sudo apt-get install tesseract-ocr-eng
sudo apt-get install tesseract-ocr-chi-sim如果需要什么文件,可以去官网下载 。 https://code.google.com/p/tesseract-ocr/downloads/list


上述准备工作做好后,就到了写代码的步骤了,代码如下:
from PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open('denggao.jpg'),lang='chi_sim')
print(text)
代码下载地址:点击打开链接
  • 点赞
  • 收藏
  • 分享
  • 文章举报
des李白 发布了1 篇原创文章 · 获赞 0 · 访问量 1118 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: