python爬取数据保存入库
2017-01-05 08:55
246 查看
import urllib2 import re import MySQLdb class LatestTest: #初始化 def __init__(self): self.url="https://toutiao.io/latest" self.UserAgent='Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.97 Safari/537.36' self.header={'User-Agent':self.UserAgent} #获取URL、标题、邮箱 保存到list def getDate(self): request=urllib2.Request(self.url,headers=self.header) respone=urllib2.urlopen(request).read() #print respone content=re.compile(r'<div class="post">.*?class="title">.*?href="(.*?)">(.*?)</a>.*?<div class="meta">.*?<span>(.*?)</span>',re.S) urls=re.findall(content,respone) namelist=[] for url in urls: #print url[0],url[1],url[2] namelist.append([url[0].strip(),url[1].strip(),url[2].strip()]) if len(namelist)>=10: break return namelist #保存数据到mysql数据库 def savaDateMysql(self,url,title,email): sql="insert into content(url,title,email)values('%s','%s','%s')" %(url,title,email) try: conn=MySQLdb.connect('192.168.200.23','root','g6s8m3t7s','mysql',charset='utf8') cursor=conn.cursor() # cursor.execute('create table IF NOT EXISTS content(id int AUTO_INCREMENT PRIMARY KEY,url varchar(100),title varchar(100),email varchar(100))') #cursor.execute('drop table IF EXISTS content') cursor.execute(sql) conn.commit() except Exception,e: print e finally: conn.close() if __name__=='__main__': lat=LatestTest() contentlist=lat.getDate() try: for tent in contentlist: url=tent[0].strip() title=tent[1].strip() email=tent[2].strip() print url,title,email lat.savaDateMysql(url,title,email) except Exception,e: print e
相关文章推荐
- Python网络爬虫出现乱码问题的解决方法
- python fabric实现远程部署
- python--知识补充
- python--参数传递
- Python解析命令行读取参数 -- argparse模块
- Cent0S 升级Python会带来的问题
- Python 2.7 + SQLite3 编码问题
- Fedora安装Python科学计算模块
- 分页原理2
- 分页原理3
- 算法学习:Pac-Man的简单对抗
- python自然语言处理学习笔记-信息提取结构
- 走进Python世界(8)----使用dict和set
- python描述器
- 运维python进行(三) 用python写一个自己zabbix的调用方法
- python--关于对象的可变性
- python fabric实现远程部署
- windows10下python机器学习开发环境搭建
- 使用greenlet如何实现Python中的并发?
- python Image库操作