python2.7 爬虫_爬取小说盗墓笔记章节及URL并导入MySQL数据库_20161201
2016-12-02 00:13
856 查看
1、爬取页面 http://www.quanshu.net/book/9/9055/
2、用到模块urllib(网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整url),MySQLdb(导入MySQL) 数据库
3、for 循环遍历列表 取得盗墓笔记章节title 和 titleurl
4、try except 异常处理
5、python 代码
代码执行情况:
6、MySQL数据库查询是否导入成功
7、执行成功
2、用到模块urllib(网页下载),re正则匹配取得title及titleurl,urlparse(拼接完整url),MySQLdb(导入MySQL) 数据库
3、for 循环遍历列表 取得盗墓笔记章节title 和 titleurl
4、try except 异常处理
5、python 代码
#-*-coding: utf-8 -*- import urllib import re import urlparse import MySQLdb rooturl='http://www.quanshu.net/book/9/9055/' #getlist返回包含title 和titleurl的列表 def getlist(url): html=urllib.urlopen(url).read() html=html.decode('gb2312').encode('utf-8') reg=r'<li><a href="(.*?)" title=".*?">(.*?)</a></li>' return re.findall(reg,html) try: conn = MySQLdb.connect(host='localhost', user='root', passwd='Admin@', db='local_db', port=3306, charset='utf8') with conn: cursor = conn.cursor() #如果存在daomubiji数据表先删除 drop_table_sql='DROP TABLE IF EXISTS daomubiji' cursor.execute(drop_table_sql) conn.commit() #如果存在daomubiji数据表 先删除后接着创建daomubiji表 create_table_sql = ''' CREATE TABLE daomubiji ( ID INT(11), title VARCHAR(255), titleurl VARCHAR(255) )ENGINE=INNODB DEFAULT CHARSET=utf8 ''' cursor.execute(create_table_sql) conn.commit() #下面调用getlist()函数获取rooturl下所有章节的titleurl 和title 组成的列表 urllist = getlist(rooturl) #href属性取得的url不完整 仅取出了完整url的右半段 因此下面for循环变量名起名righturl ID=0 #对列表进行遍历 取 titleurl 和title for righturl in urllist: title = righturl[1] newurl = righturl[0] #urlparse 模块的urlparse.urljoin方法将righturl 按照rooturl格式拼接成完整url titleurl = urlparse.urljoin(rooturl, newurl) ID+=1 print ID,title, titleurl cursor.execute("INSERT INTO daomubiji values(%s,%s,%s)", (ID,title, titleurl)) conn.commit() print "输入了"+ str(ID) +"条数据" except MySQLdb.Error: print "连接失败!"
代码执行情况:
6、MySQL数据库查询是否导入成功
SELECT * FROM daomubiji
7、执行成功
相关文章推荐
- python爬虫URL重试机制实现(python2.7以及python3.5)
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- python 站点爬虫 下载在线盗墓笔记小说到本地的脚本
- [Python实战项目] - xpath 爬虫实战,获取纵横小说网连载小说最新章节(一)
- python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
- Python爬虫基础(一)--简单的url请求
- 零基础写python爬虫之爬虫的定义及URL构成
- Python 网络爬虫5 ---- 第一次实现抓取数据并且存放到mysql数据库中
- 使用python2.7学习网络爬虫,问题锦集
- 使用Python2.7操作Selenium2时只打开浏览器不load URL的解决方法
- python2.7爬虫学习笔记(一)---Urllib库的使用
- 零基础写python爬虫之爬虫的定义及URL构成
- [No.003-6]爬虫网易赔率数据并导入到mysql数据库
- python将json格式数据转换为insert into语句导入mysql数据库
- python抓取搜索到的url,小型爬虫
- 抓取糗百内容小爬虫(python2.7) 2015最新版
- [Python]网络爬虫1:抓取网页的含义和URL基本构成 笔记
- Python2.7 连接Mysql数据库
- Python将JSON格式数据转换为SQL语句以便导入MySQL数据库
- [No.003-1]爬虫网易赔率数据并导入到mysql数据库