【爬虫】正则表达式解析网页
2017-09-07 22:28
357 查看
用正则表达式解析网页
# 猫眼电影
import json
import re
from multiprocessing.pool import Pool
import requests
from requests.exceptions import RequestException
#请求一个页面返回响应内容
def get_one_page(url):
try:
response =requests.get(url)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
#解析网页
def parse_one_page(html):
pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S) #不要出现多余的空格
items = re.findall(pattern,html)
print(items)
for item in items:
yield{
'number':item[0],
'picture':item[1],
'title':item[2],
'actors':item[3].strip()[3:],
# 'time':item[4].strip()[5:],
'time': get_release_time(item[4].strip()[5:]),
'area': get_release_area(item[4].strip()[5:]),
'score':item[5]+item[6]
}
def main(offset):
url='http://maoyan.com/board/4?offset='+str(offset)
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool = Pool()
pool.map(main, [i * 10 for i in range(10)])
# 猫眼电影
import json
import re
from multiprocessing.pool import Pool
import requests
from requests.exceptions import RequestException
#请求一个页面返回响应内容
def get_one_page(url):
try:
response =requests.get(url)
if response.status_code==200:
return response.text
return None
except RequestException:
return None
#解析网页
def parse_one_page(html):
pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S) #不要出现多余的空格
items = re.findall(pattern,html)
print(items)
for item in items:
yield{
'number':item[0],
'picture':item[1],
'title':item[2],
'actors':item[3].strip()[3:],
# 'time':item[4].strip()[5:],
'time': get_release_time(item[4].strip()[5:]),
'area': get_release_area(item[4].strip()[5:]),
'score':item[5]+item[6]
}
def main(offset):
url='http://maoyan.com/board/4?offset='+str(offset)
html=get_one_page(url)
for item in parse_one_page(html):
print(item)
if __name__=='__main__':
pool = Pool()
pool.map(main, [i * 10 for i in range(10)])
相关文章推荐
- 正则表达式-网页爬虫-从服务器或本地文件获取邮件地址
- 转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)
- java根据 正则表达式解析html网页内容
- [C#][固定格式网页解析]使用正则表达式处理网页的初步体会
- 正则表达式 网页爬虫 2011年10月27号
- golang使用正则表达式解析网页
- JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫
- day25正则表达式,匹配,切割,替换。获取。网页爬虫
- android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)
- java爬虫--使用正则表达式获取网页中的email
- 使用正则表达式写一个网页爬虫案例获取指定文档中的邮件地址保存到自己指定的文件夹中
- JAVA之旅(三十四)——自定义服务端,URLConnection,正则表达式特点,匹配,切割,替换,获取,网页爬虫
- 黑马程序员_温习 正则表达式 (个人笔记)摘要(正则表达式-----网页爬虫)
- [C#][固定格式网页解析]使用正则表达式处理网页的初步体会
- 正则表达式--——网页爬虫
- Java正则表达式之网页爬虫
- java网页正则表达式爬虫(用纯java代码在相应的网页中查看自己想要的内容)
- 黑马程序员——JAVA基础---正则表达式---概述,匹配、切割、替换、提取,网页爬虫
- java正则表达式简单使用和网页爬虫的制作代码