Python爬虫之从网站图片中抓取文字
2017-12-08 15:55
801 查看
本程序采用selenium和phantomjs爬取亚马逊图书详情页面,并且使用Tesseract OCR识别图书大图上的文字。
程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。
实现代码如下:
程序输出结果如下:
(wwmwlvrvm
o a,
Wham mag
Way and Peace
m, Nmuymh mm
Wm is m m
虽然识别的不太准确,但是机器很容易识别的识别到了
程序模拟了我们在浏览器上的操作过程。点击下方会触发页面的js弹出模态框,此时页面的dom会增加,然后点击模态框右边的图片可以进行切换,模态框上左边的图片会跟着进行变换。通过获取模态框左边的图片然后用OCR技术识别图片上的文字。
实现代码如下:
import time from urllib.request import urlretrieve import subprocess from selenium import webdriver driver = webdriver.PhantomJS('./phantomjs') # 加载页面 driver.get("https://www.amazon.cn/War-Peace-Leo-Nijolayevich-Tolstoy/dp/1427030200") # 等待页面加载完毕 time.sleep(2) # 点击 driver.find_element_by_id("imgThumbs").click() imageList = set() # 等待点击后弹出模态框 time.sleep(2) for i in range(0, 2): driver.find_element_by_id("ig-thumb-" + str(i)).click() time.sleep(1) image = driver.find_element_by_id("igImage").get_attribute("src") imageList.add(image) driver.quit() # 打印找到的图片 print(imageList) # for image in sorted(imageList): urlretrieve(image, "page.jpg") p = subprocess.Popen(["tesseract", "page.jpg", "page"], stdout=subprocess.PIPE, stderr=subprocess.PIPE) p.wait() f = open("page.txt", "r") print(f.read())
程序输出结果如下:
(wwmwlvrvm
o a,
Wham mag
Way and Peace
m, Nmuymh mm
Wm is m m
虽然识别的不太准确,但是机器很容易识别的识别到了
相关文章推荐
- 【python】100行代码python爬虫程序,抓取网站图片存储本地(附:中文链接解决)
- Python入门-编写抓取网站图片的爬虫-正则表达式
- [Python爬虫] 之二十六:Selenium +phantomjs 利用 pyquery抓取智能电视网站图片信息
- <四>、python爬虫抓取购物网站商品信息--图片价格名称
- 【Python】爬虫入门--抓取网站图片
- python小爬虫—抓取pixabay网站的图片资源
- python 实现网站图片抓取小爬虫
- Python3简单爬虫抓取网页图片
- Python爬虫抓取糗百的图片,并存储在本地文件夹
- 基于python的网络爬虫---抓取p站图片
- Python3 定向爬虫之“抓取糗事百科图片”
- Python爬虫实战(1)——百度贴吧抓取帖子并保存内容和图片
- [置顶] [爬虫]用Python抓取非小号网站数字货币(一)
- Python爬虫抓取百度搜索图片
- 抓取整个网站图片的爬虫
- Python爬虫(02)从网站下载图片
- Python selenium爬虫抓取船舶网站数据(动态页面)
- Python爬虫实现抓取网页图片
- 直播网站LiveTV Mining,爬虫抓取数据 python3+selenium+phantomjs
- python抓取网站88titienmae88中的“图片区”的第一页的所有图片