【整理】用Python+beautifulsoup抓取股票数据
2014-03-27 15:34
295 查看
【刚开始写总结,读者如果对我的内容有任何建议欢迎留言反馈,或直接加QQ1172617666,期待交流】
先贴上代码,再详细的写一下在写这些代码的过程中遇到的问题,解决的方法。
这些代码完成的任务是:访问http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/600000.phtml 把该股票代码的所有极度的历史信息抓取下来,保存成.json格式(可以用记事本打开)文件。我是存放在了C:\Users\ZSH\Desktop\Python\DATA下面,你可以把这个路径替换为你的相关路径。
1,windows下,Python环境的搭建,我的环境是myeclipse+pydev,参考的教程帖子是Python环境搭建 个人觉得myeclipse是个非常强大的编译器,上手较容易。关于Python函数,for 语句等等基本基本语法,我推荐两个文档,一是“Python简明教程”(中文),内容通俗易懂。另一个就是位于C:\Python34\Doc的说明文档。
2,这个脚本用到的第三方模块——beautifulsoup4,也就是from bs4 import BeautifulSoup 这一句代码牵扯到的,这个模块用于从html代码中分析出表格区域,进一步解析出数据。关于beautifulsoup的安装我参考的是Windows平台安装Beautiful Soup 。
3,关于用urllib.request模块实现整个功能的部分,我从这位大哥的博客里学到了好多,他的博客真是超级详细易懂,体贴初学者。博客地址
4,Python字符串“格式化”——也即替换句子中的某一个字符串。Python中与字符串相关的各种操作Python基础教程笔记——使用字符串 中讲的很详细。
5,Python2到Python3的转换,由于字符编码的问题(中文print出来是ascii码),有人建议换到Python3,因为Python3默认是utf-8,Python3.x和Python2.x的区别 这个链接讲了Python2和Python3的区别。
来自为知笔记(Wiz)
先贴上代码,再详细的写一下在写这些代码的过程中遇到的问题,解决的方法。
这些代码完成的任务是:访问http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/600000.phtml 把该股票代码的所有极度的历史信息抓取下来,保存成.json格式(可以用记事本打开)文件。我是存放在了C:\Users\ZSH\Desktop\Python\DATA下面,你可以把这个路径替换为你的相关路径。
2,这个脚本用到的第三方模块——beautifulsoup4,也就是from bs4 import BeautifulSoup 这一句代码牵扯到的,这个模块用于从html代码中分析出表格区域,进一步解析出数据。关于beautifulsoup的安装我参考的是Windows平台安装Beautiful Soup 。
3,关于用urllib.request模块实现整个功能的部分,我从这位大哥的博客里学到了好多,他的博客真是超级详细易懂,体贴初学者。博客地址
4,Python字符串“格式化”——也即替换句子中的某一个字符串。Python中与字符串相关的各种操作Python基础教程笔记——使用字符串 中讲的很详细。
5,Python2到Python3的转换,由于字符编码的问题(中文print出来是ascii码),有人建议换到Python3,因为Python3默认是utf-8,Python3.x和Python2.x的区别 这个链接讲了Python2和Python3的区别。
来自为知笔记(Wiz)
相关文章推荐
- 使用python抓取并分析数据—链家网(requests+BeautifulSoup)(转)
- python+BeautifulSoup+selenium+mysqldb完成数据抓取
- Python+Selenium实现股票板块数据模拟抓取
- Python 抓取新浪财经股票数据
- Python抓取股票数据,如何用python编程赚取第一桶金?
- 使用Python+selenium+BeautifulSoup抓取动态网页的关键信息
- python之BeautifulSoup之二 带属性值的抓取(find_all('tag', attrs={'class':'value'})
- Python练习 requests+BeautifulSoup抓取ZD页面
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取自己想要网页内容
- Python 实现股票数据的实时抓取
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取动态网页内容:Knewone
- 一个极其简洁的Python网页抓取程序,自己主动从雅虎財经抓取股票数据
- Python+BeautifulSoup抓取暴走漫画页面图片
- Python数据采集之BeautifulSoup
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + urlretrieve 抓取并保存图片:weheartit
- 一个极其简洁的Python网页抓取程序,自动从雅虎财经抓取股票数据
- Python 实现股票数据的实时抓取
- 【整理】Python中,添加写入数据到已经存在的Excel的xls文件,即打开excel文件,写入新数据
- python3 requests+BeautifulSoup使用多进程爬取妹子图
- python淘宝爬虫基于requests抓取淘宝商品数据