您的位置:首页 > 理论基础 > 计算机网络

网络数据抓取

2016-02-10 10:29 429 查看
http://www.dataguru.cn/article-3717-1.html 炼数成金《数据分析,展现与R语言》课程
http://blog.sina.com.cn/s/blog_40a4e96d0101nvo3.html http://blog.sciencenet.cn/home.php?mod=space&uid=461456&do=blog&id=455211
1.原文地址:

http://www.21andy.com/blog/20090530/1313.html

实时股票数据接口大全

股票数据的获取目前有如下两种方法可以获取:

1. http/javascript接口取数据

2. web-service接口
1.http/javascript接口取数据

1.1Sina股票数据接口

以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据

接口:
http://hq.sinajs.cn/list=sh601006
这个url会返回一串文本,例如:

var hq_str_sh601006="大秦铁路, 27.55, 27.25, 26.91, 27.55, 26.20, 26.91, 26.92,

22114263, 589824680, 4695, 26.91, 57590, 26.90, 14700, 26.89, 14300,

26.88, 15100, 26.87, 3100, 26.92, 8900, 26.93, 14230, 26.94, 25150, 26.95, 15220, 26.96, 2008-01-11, 15:05:32";

这个字符串由许多数据拼接在一起,不同含义的数据用逗号隔开了,按照程序员的思路,顺序号从0开始。

0:”大秦铁路”,股票名字;

1:”27.55″,今日开盘价;

2:”27.25″,昨日收盘价;

3:”26.91″,当前价格;

4:”27.55″,今日最高价;

5:”26.20″,今日最低价;

6:”26.91″,竞买价,即“买一”报价;

7:”26.92″,竞卖价,即“卖一”报价;

8:”22114263″,成交的股票数,由于股票交易以一百股为基本单位,所以在使用时,通常把该值除以一百;

9:”589824680″,成交金额,单位为“元”,为了一目了然,通常以“万元”为成交金额的单位,所以通常把该值除以一万;

10:”4695″,“买一”申请4695股,即47手;

11:”26.91″,“买一”报价;

12:”57590″,“买二”

13:”26.90″,“买二”

14:”14700″,“买三”

15:”26.89″,“买三”

16:”14300″,“买四”

17:”26.88″,“买四”

18:”15100″,“买五”

19:”26.87″,“买五”

20:”3100″,“卖一”申报3100股,即31手;

21:”26.92″,“卖一”报价

(22, 23), (24, 25), (26,27), (28, 29)分别为“卖二”至“卖四的情况”

30:”2008-01-11″,日期;

31:”15:05:32″,时间;

一个简单的JavaScript应用例子:

<script type="text/javascript" src="http://hq.sinajs.cn/list=sh601006" charset="gb2312"></script>

<script type="text/javascript">

var elements=hq_str_sh601006.split(",");

document.write("current price:"+elements[3]);

</script>

这段代码输出大秦铁路(股票代码:601006)的当前股价

current price:14.20

如果你要同时查询多个股票,那么在URL最后加上一个逗号,再加上股票代码就可以了;比如你要一次查询大秦铁路(601006)和大同煤业(601001)的行情,就这样使用URL:
http://hq.sinajs.cn/list=sh601003,sh601001
查询大盘指数,比如查询上证综合指数(000001):
http://hq.sinajs.cn/list=s_sh000001
服务器返回的数据为:

var hq_str_s_sh000001="上证指数,3094.668,-128.073,-3.97,436653,5458126";

数据含义分别为:指数名称,当前点数,当前价格,涨跌率,成交量(手),成交额(万元);

查询深圳成指数:
http://hq.sinajs.cn/list=s_sz399001
对于股票的K线图,日线图等的获取可以通过请求http://image.sinajs.cn/…./…/*.gif此URL获取,其中*代表股票代码,详见如下:

查看日K线图:
http://image.sinajs.cn/newchart/daily/n/sh601006.gif
分时线的查询:
http://image.sinajs.cn/newchart/min/n/sh000001.gif
日K线查询:
http://image.sinajs.cn/newchart/daily/n/sh000001.gif
周K线查询:
http://image.sinajs.cn/newchart/weekly/n/sh000001.gif
月K线查询:
http://image.sinajs.cn/newchart/monthly/n/sh000001.gif


1.2 Baidu&Google的财经数据

在baidu, google中搜索某只股票代码时,将会在头条显示此股票的相关信息,例如在google搜索601006时,

第一条搜索结果如下图:

通过点击左边的图片我们发现会将此图片链接到sina财经频道上,也就是说google股票数据的获取也是从sina获取。后经抓包分析,发现google也是采用1.1中介绍的接口。

Baidu的股票数据来自baidu的财经频道

http://stock.baidu.com/

==================================

2. 这个方法作者页面上说过不得转载,所以摘抄一段:

剩下的在(实际上是上面方法的Java版)

http://www.iteye.com/topic/169821

炒股有一段时间了,发现现在的股票行情软件在很多情况下并不是太好用,我炒股的时候喜欢看盘口的实时交易记录,如果同时关注多支股票的话,我用过的行情软件没有找到同时观看多支股票盘口交易数据的功能,另外在工作的时候使用目前的行情软件也不太方便。所以打算自己写个专门的行情软件,但是数据源是个最棘手的问题,经过搜索和不懈的努力,找到了两种方式:

通过webservice调用http://www.webxml.com.cn/zh_cn/web_services.aspx,该网站提供了免费的和收费的服务,但是免费的限制了每天的请求次数,在此不太实用。

调用sina专门的js服务器来解析数据,这种方式我使用了有很长一段时间,速度还是相当不错的,有时候比专门的行情软件的实时数据还快,下面是获取数据的部分代码:

3. 从新浪获取历史数据的方法:

http://blog.163.com/fluxray_sensor/blog/static/2965101520085213574929/

这几天在网上找股票的历史数据想研究研究,最后找到一个不错的接口,来自于雅虎,是在一个博客上找到的,地址为:http://www.bizeway.net/read.php?317 。不过这个不是我第一个找到的接口,最初始我是想直接解析新浪的历史交易页面,不过那个数据不是很全,只有大概近2个多月的数据。下面我把解析的脚本贴出来,主要是为了再次演示正则表达式的无穷魅力,因为解析的关键无疑是在一句正则表达式上!

stockCode=600000url
= "http://money.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/{0}.phtml"
-f stockCodewc
= New-Object System.Net.WebClient

content=wc.DownloadString($url)

$reg = "<a target='_blank'\s+href='http://biz.finance.sina.com.cn/stock/history_min.php\?symbol=sh\d{6}&date=\d{4}-\d{2}-\d{2}'>\s*([^\s]+)\s+\s*

\s*<td[^\d]*([^<]*)
\s+<td[^\d]*([^<]*)
\s+<td[^\d]*([^<]*)\s+<td[^\d]*([^<]*)\s+"

result=[RegEx]::matches(content,
$reg)

foreach(iteminresult)

{

date=item.Groups[1].Value
# 时间

opening=item.Groups[2].Value
# 开盘

maxHigh=item.Groups[3].Value
# 最高

closing=item.Groups[4].Value
# 收盘

maxLow=item.Groups[5].Value
# 最低

Write-Host dateopening maxHighclosing
$maxLow

}

4. 编程获取所有股票的历史数据

http://hi.baidu.com/pinotwu/blog/item/0adb7b7bfc0f53e12f73b3e8.html

2010-03-24 02:22
上篇文章写的是投资组合的计算,其中用到的大量数据不太好找。各种免费的股票软件基本上也只能一次导出一只股票的历史价格,我不想傻傻地坐在电脑面前点鼠标点上十几二十个小时。

下面把获得方法详细写出来,希望对大家有用,对自己也是个记录。

查看了各大财经网站的情况后,发现yahoo能提供些不错的免费午餐。在yahoo财经上下载股票的“历史价格”时,能看到“XML数据下载”这一项。这比分页的HTML数据好解析多了。至于网上流行的sina股票数据接口嘛,不提供历史价格,只有当前价格(或者有我不知道)。点击链接,发现是:
http://yahoo.compass.cn/stock/xml/000001.ss_day.xml
很好。一看就明白。数据有:

<label ref="date">行情日期</label>

<label ref="open">开盘价</label>

<label ref="high">最高价</label>

<label ref="low">最低价</label>

<label ref="close">收盘价</label>

<label ref="volume">成交量</label>

<label ref="amount">成交额</label>

这下发达了!

使用python,很容易写出多线程的抓取网页程序。

线程库:threading

网页抓取:urllib2

XML解析:xml.dom

HTML解析:SGMLPaser

注意,由于数据较多,使抓取失败的因素是很多的,所以做好出错处理。一次抓不下来,我抓2次!我就是这么无耻地处理的:发现抓取失败,就循环他5次!谁让你提供了免费午餐?我有义务履行套利者的义务。用钱买数据?钱多烧的吧?(如果你发现哪款免费行情软件能下载所有股票的所有历史数据的,别告诉我)。

而在yahoo财经上,发现总市值不好抓取,不在其源代码中出现。用了ajax?也没找到相关的javascript代码。算了,对web技术咱也不太熟。

后来发现在baidu财经上提供的信息比较好抓取,就用它了。

至于公司代码嘛,一两千个,手工一个个查也很费劲。还好,交易所主页都能方便找到。这方面深交所比上交所做得好点,直接有EXCEL文件下载。

几经调试,OK。全抓下来了。相关python代码可点击下面的链接下载。

http://ishare.iask.sina.com.cn/f/7166441.html

友情附上上市公司代码文件。fetch_market_cap.py/ fetch_data.py是主程序,其它的是模块。具体见readme.

抓取来的数据都是CSV文件,用python/perl/awk/sed处理都方便至极。

买数据?笑话!将免费进行到底。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: