python正则表达式抓取成语网站
1、首先找到一个在线成语网站
2、查看网页结构,定义正则式
看一下要抓的成语的标签有什么特点,查看源码,可以发现要抓的成语都在<a>标签中,如:<a href="/cy0/93.html">安如磐石</a>,成语事实上就是一个瞄文本,不同成语指向的链接不同,其实也就"/cy0/93.html"中的数字不同,所以正则式里匹配两次数字就行了,定义正则式 reg = "<a href=\"/cy(\d+)/(\d+).html\">(.*?)</a>"。
3、上代码吧
#anthor jiqunpeng
#time 20121124
import urllib
import re
def getHtml(url): #从URL中读取html内容
page = urllib.urlopen(url)
html = page.read()
page.close()
return html
def getDictionary(html): #匹配成语
reg = "<a href=\"/cy(\d+)/(\d+).html\">(.*?)</a>"
dicList = re.compile(reg).findall(html)
return dicList
def getItemSite():#手工把每个字母开头的页面数统计下来
itemSite = {}#申明为空字典
itemSite["A"] = 3
itemSite["B"] = 21
itemSite["C"] = 19
itemSite["D"] = 18
itemSite["E"] = 2
itemSite["F"] = 14
itemSite["G"] = 13
itemSite["H"] = 15
itemSite["J"] = 23
itemSite["K"] = 6
itemSite["L"] = 15
itemSite["M"] = 12
itemSite["N"] = 5
itemSite["O"] = 1
itemSite["P"] = 6
itemSite["Q"] = 16
itemSite["R"] = 8
itemSite["S"] = 26
itemSite["T"] = 12
itemSite["W"] = 13
itemSite["X"] = 16
itemSite["Y"] = 35
itemSite["A"] = 21
return itemSite
if __name__== "__main__":
dicFile = open("dic.txt","w+")#保存成语的文件
domainsite = "http://chengyu.itlearner.com/list/"
itemSite = getItemSite()
for key,values in itemSite.items():
for index in range(1,values+1):
site = key +"_"+str(index)+".html"
dictionary = getDictionary(getHtml(domainsite+site))
for dic in dictionary:
dicFile.write(dic[2]+"@@CY\n")#标记为成语,分词时使用
print key+'字母成语抓取完毕'
dicFile.close()
print '全部成语抓取完毕'
把成语保存在了txt文本中,还添加了一个后缀标签。
最后注意,设计正则表达式时可能会出现明明认为是正确的,就是匹配不了,对空白字符要留意,比如说要解析:
<div class="avatar_name">
<a href="/u/kkun/" title="kkun">kkun</a>
</div>
你看不出第一行与第二行的空白字符是什么,可以index = html.find('avatar_name'),html[4677:4677+100]看到非空白字符。
您可能感兴趣的文章:
- python3爬虫之入门基础和正则表达式
- 零基础写python爬虫之神器正则表达式
- Python的爬虫包Beautiful Soup中用正则表达式来搜索
- Python爬虫正则表达式常用符号和方法
- python爬虫 正则表达式使用技巧及爬取个人博客的实例讲解
- python正则表达式爬取猫眼电影top100
- Python使用正则表达式抓取网页图片的方法示例
- python正则匹配抓取豆瓣电影链接和评论代码分享
- Python爬虫实现网页信息抓取功能示例【URL与正则模块】
- Python正则抓取新闻标题和链接的方法示例
- Python正则抓取网易新闻的方法示例
- Python3使用正则表达式爬取内涵段子示例
- python正则表达式抓取成语网站
- Python入门-编写抓取网站图片的爬虫-正则表达式
- 利用python正则表达式抓取网页中的图片到本地
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup)
- 抓取网站正则表达式
- Python网页抓取正则表达式应用练习-爬取基金信息
- python正则表达式修复网站文章字体不统一的解决方法
- python正则表达式修复网站文章字体不统一问题
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- C#正则表达式抓取网站信息
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- C#使用正则表达式抓取网站信息示例
- python3抓取猫眼电影(正则表达式)
- 初学python+selenium之路3:邮箱抓取中的正则表达式
- 详解JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- Python3.7 爬虫(一)使用 Urllib2 与正则表达式抓取
- 推荐一个不错的抓取匹配源码的正则表达式网站
- Python使用正则表达式抓取网页图片的方法示例