爬取某网站内容获得联系人电话号码
2018-03-11 21:35
197 查看
#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib2 import urllib import re import sys #中文转码到url需要经过中间量,由于之前一直导出乱码,所以这里加的这些 defaultencoding = 'utf-8' if sys.getdefaultencoding() != defaultencoding: reload(sys) sys.setdefaultencoding(defaultencoding) # 进行转码 company_name = open("D:/user/Desktop/company.txt") array = company_name.readlines() for company in array: company = company.decode('gb2312') url = "http://xxx.xxx.xxx.xxx #保密 headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/57.0"} request = urllib2.Request(url, headers = headers) response = urllib2.urlopen(request) # 获取每页的HTML源码字符串 html = response.read() # 创建正则表达式规则对象,匹配每页里的段子内容,re.S 表示匹配全部字符串内容 pattern = re.compile('<ul>(.*?)</ul>', re.S) # 将正则匹配对象应用到html源码字符串里,返回这个页面里的所有段子的列表 content_list = pattern.findall(html) for item in content_list: #设定一个参数用来存储是否含有电话号码 num = 0 # 将集合里的每个段子按个处理,替换掉无用数据 item = item.replace("<li>","").replace("</li>", "").replace("<ul>", "").replace("</ul>", "").replace("</a>", "").replace('<span style="padding-right: 1em;"></span>', "").replace('<span style="padding-right: 2em;"></span>', "") #要是没电话,则跳过进入下一个 number = ['0','1','2','3','4','5','6','7','8','9'] for i in number: number_list = "电话: " number_list = number_list + i if number_list in item: num = num +1 if num == 0: break # 处理完后调用writePage() 将每个段子写入文件内 with open("D:/user/Desktop/look_here.txt", "a") as f: f.write("\n") f.write(item) f.close()
相关文章推荐
- Android根据内容提供者获得联系人信息实例
- 根据电话号码查询联系人id,姓名,短信日期和短信简略内容
- 根据电话号码获得联系人头像
- 获得联系人姓名、电话号码的方法
- Android根据电话号码获得联系人头像实例代码
- iphone学习笔记--获得iPhone通讯录中所有联系人的电话号码和邮箱
- Android——通过电话号码获得联系人图像、姓名
- 根据电话号码获得联系人头像
- 如何获得高质量网站内容
- webrequest获得网页内容(小偷网站)
- 网站文章收录内容太少是是什么原因?
- UIWebView获得内容的高-作出自适应高的UIWebView
- php中能够获取到某一网站内容的方法
- CSDN 未来网站内容Tag架构猜想
- iframe截取网站的部分内容
- krpano全球漫游相同的声音和声音添加的场景(文章内容已移至krpano中国网站)
- 2014-04-17-IIS发布网站 HTTP 错误 403.14 - Forbidden Web 服务器被配置为不列出此目录的内容
- 送给毕业生朋友-简历制作、论文资源、考试资源等内容的网站
- Android核心基础-5.Android 数据存储与访问-4.ContentProvider 内容提供者-示例(操作联系人)
- android通过查询电话号码获取联系人头像