简单的实现爬虫爬取网页文本和图片
2017-11-17 10:48
381 查看
一 基本概念
在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。二 HTML 的组成部分
(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。(2) Head 告诉浏览器一些相关的信息。
(3) Body 包含的是给人看的数据。
按F12,显示网页代码信息
三 用python抓取图片源代码
#coding=utf-8 import urllib import re def getHtml(url): page = urllib.urlopen(url)#打开网址 html = page.read() #读取网页内容,保存到htlm中 return html def getImg(html): reg = r'src="(.+?\.jpg)" pic_ext'#正则表达式 imgre = re.compile(reg) #把正则表达式编译成一个正则表达式对象. imglist = re.findall(imgre,html)#读取html 中包含 imgre(正则表达式)的数据 x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg' % x)#直接将远程数据下载到本地 x+=1 html = getHtml("http://tieba.baidu.com/p/2460150866") print getImg(html)
四 用python抓取网页的文字信息源代码
# coding=utf-8 import urllib2 import urllib import re import thread import time from bs4 import BeautifulSoup url="http://toutiao.sogou.com/?fr=qqxwtt" page = urllib.urlopen(url)#打开网址 html = page.read() #读取网页内容,保存到htlm中 bs0bj=BeautifulSoup(html) #创建一个beautifulsoup的类 namelist=bs0bj.findAll("a")#通过标签筛选文字信息 for name in namelist: print (name.get_text())
相关文章推荐
- Python爬虫实战(三):简单爬取网页图片
- Java简单实现爬虫技术,抓取整个整个网站所有链接+图片+文件(思路+代码)
- 简单爬虫源码,下载指定网页所有图片
- python(1)-实现简单的图片爬虫
- Python 爬虫图片简单实现
- FileReader (三) - 网页拖拽并预显示图片简单实现
- CSS+Table图文混排中实现文本自适应图片宽度(超简单+跨所有浏览器)
- 简单的java爬虫抓取网页实现代码(未测试)
- Android下保存简单网页到本地(包括简单图片链接转换)实现代码
- 简单网络爬虫实现<爬取网页邮箱>
- C#实现简单的网页爬虫
- JavaMail实现邮件发送的简单封装(包括文本、图片、html、附件)
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- java实现的简单网页爬虫:Servlet + MySQL5.5
- Python3简单爬虫抓取网页图片
- PHP实现简单爬虫-抓取网页url
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- python自学笔记(8)--Python简单爬虫从网站上下载图片和用第三方库request实现百度翻译
- requests实现简单文本爬虫