您的位置:首页 > 编程语言 > Python开发

有关利用python获取网页, 以及KDD近几年论文标题与摘要链接

2014-08-01 16:27 621 查看
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。

还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉。。

想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等),将这些标签删除之后,就能够得到纯文本,从而得到人可读的内容。

但是,有一个问题在于python没有办法登陆账号,所以我最后直接把acmkdd的网页html代码复制下来,扔在一个txt里面,然后打开txt进行读取。

其实整段python的代码函数非常简单,如下:

importre
file=open('kdd2013.txt','r')
s1=file.read()
re_h=re.compile('</?\w+[^>]*>')
s=re_h.sub('',s1)
blankline=re.compile('\n+')
s=blankline.sub('',s)
expand=re.compile('expand')
s=expand.sub('\n',s)
blankline=re.compile('\n+')
s=blankline.sub('\n',s)

fp=open(r'kdd2013_pure.txt','w')
fp.write(s)
fp.close()


ViewCode



其实在这里,主要是记录一下python里面去除html标签正则表达式的编写,利用python有的re模块进行正则表达式的规则设置,compile为设定一个规则,可以看出,compile中的</?\w+[^>]*>,个人理解中,这段代表的就是说,匹配到开头中,如果是<开头,>结尾的语句,则直接删除,因为毕竟acm的页面写的还是相对非常工整的,所以能够很轻松的删除每一个html的标签,然后,再删除多余的空行,利用#2.通过#2可以实现对多个空行的删除,匹配的就是\n+,代表多个空行。

最后,利用上面的python程序,我将kdd中的字段全部拿下来了,得到的都是几个txt,是最近几年的kdd的文章title和摘要,这里也贴出来跟大家分享一下~

由于博客园似乎不能上传附件,我就扔在百度云里边儿了,链接如下:http://pan.baidu.com/s/1jGDUNqA
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐