有关利用python获取网页, 以及KDD近几年论文标题与摘要链接
2014-08-01 16:27
621 查看
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。
还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉。。
想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等),将这些标签删除之后,就能够得到纯文本,从而得到人可读的内容。
但是,有一个问题在于python没有办法登陆账号,所以我最后直接把acmkdd的网页html代码复制下来,扔在一个txt里面,然后打开txt进行读取。
其实整段python的代码函数非常简单,如下:
ViewCode
其实在这里,主要是记录一下python里面去除html标签正则表达式的编写,利用python有的re模块进行正则表达式的规则设置,compile为设定一个规则,可以看出,compile中的</?\w+[^>]*>,个人理解中,这段代表的就是说,匹配到开头中,如果是<开头,>结尾的语句,则直接删除,因为毕竟acm的页面写的还是相对非常工整的,所以能够很轻松的删除每一个html的标签,然后,再删除多余的空行,利用#2.通过#2可以实现对多个空行的删除,匹配的就是\n+,代表多个空行。
最后,利用上面的python程序,我将kdd中的字段全部拿下来了,得到的都是几个txt,是最近几年的kdd的文章title和摘要,这里也贴出来跟大家分享一下~
由于博客园似乎不能上传附件,我就扔在百度云里边儿了,链接如下:http://pan.baidu.com/s/1jGDUNqA
还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉。。
想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等),将这些标签删除之后,就能够得到纯文本,从而得到人可读的内容。
但是,有一个问题在于python没有办法登陆账号,所以我最后直接把acmkdd的网页html代码复制下来,扔在一个txt里面,然后打开txt进行读取。
其实整段python的代码函数非常简单,如下:
importre file=open('kdd2013.txt','r') s1=file.read() re_h=re.compile('</?\w+[^>]*>') s=re_h.sub('',s1) blankline=re.compile('\n+') s=blankline.sub('',s) expand=re.compile('expand') s=expand.sub('\n',s) blankline=re.compile('\n+') s=blankline.sub('\n',s) fp=open(r'kdd2013_pure.txt','w') fp.write(s) fp.close()
ViewCode
其实在这里,主要是记录一下python里面去除html标签正则表达式的编写,利用python有的re模块进行正则表达式的规则设置,compile为设定一个规则,可以看出,compile中的</?\w+[^>]*>,个人理解中,这段代表的就是说,匹配到开头中,如果是<开头,>结尾的语句,则直接删除,因为毕竟acm的页面写的还是相对非常工整的,所以能够很轻松的删除每一个html的标签,然后,再删除多余的空行,利用#2.通过#2可以实现对多个空行的删除,匹配的就是\n+,代表多个空行。
最后,利用上面的python程序,我将kdd中的字段全部拿下来了,得到的都是几个txt,是最近几年的kdd的文章title和摘要,这里也贴出来跟大家分享一下~
由于博客园似乎不能上传附件,我就扔在百度云里边儿了,链接如下:
相关文章推荐
- 利用python获取网页信息以及插入Access数据库
- python3利用beautiful soup获取网页文本及src链接和http链接
- 利用htmpParser获取网页内容以及网页上的图片地址
- HTMLParser解析网页,提取链接地址、标题名称,并插入数据库 分类: python 小练习 HTMLParser 2014-02-19 09:57 519人阅读 评论(0) 收藏
- 【python】获取指定网页上的所有超级链接
- python-网络爬虫初学一:获取网页源码以及发送POST和GET请求
- Python爬虫小实践:获取某个网站所有的外部链接以及内部链接
- 利用JSP获取网页源文件并抓取其中的链接地址
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 如何利用Python库urllib2获取百度搜索引擎加密链接(续)
- python爬虫初级--获取指定页面上的菜单名称以及链接,然后导出
- python获取网页所有链接
- python获取CSDN个人收藏的文章链接和标题,然后发送到指定邮件
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 正则表达式取网页链接以及标题,包含单、双引号,以及没有引号的情况
- Python简单抓取新浪某网页新闻链接及标题
- 如何根据URL链接获取网页标题
- python中利用Cookielib获取网页的登录的cookie
- 根据网页链接获取网页标题
- python获取网页上所有链接