数据采集利器-PHP用DOM方式处理HTML之《Simple HTML DOM》
2011-05-12 20:41
726 查看
最近经常需要采集一些网上的数据,发现一个PHP处理HTML的利器 simple html dom,官方网址是http://simplehtmldom.sourceforge.net/
看了一下文档,使用非常方便,关键是能够用CSS选择器来访问DOM树,和jquery相似,实在是难得的利器
以下是一个测试代码,用于抓取大众点评网上的咖啡分类的所有店铺:
程序:
// SyntaxHighlighter.config.clipboardSwf = "http://www.crazyant.net/js/code/clipboard.swf";SyntaxHighlighter.all();
// ]]>
数据采集结果,共采集了21页的数据
另外,还有一个更强大的PHP处理HTML的利器,号称和jquery更相似,并且比simplehtmldom强大,但是难学,叫做 phpquery,地址是:http://code.google.com/p/phpquery/
看了一下文档,使用非常方便,关键是能够用CSS选择器来访问DOM树,和jquery相似,实在是难得的利器
以下是一个测试代码,用于抓取大众点评网上的咖啡分类的所有店铺:
程序:
<?php require_once("simple_html_dom.php"); ini_set('memory_limit','1000M'); ini_set("max_execution_time",6000000); for($i=1;$i<=21;$i++){ $html = file_get_html("http://www.dianping.com/search/category/17/30/g1498p$i/g30g1498"); $as = $html->find('.shopname a'); $sum = 0; foreach($as as $a) { if($a->plaintext != "分店"){ $a->href = "http://www.dianping.com".$a->href; echo $a->outertext."------".$a->href."-------<br>"; $sum++; } } echo "<br><br>第 {$i} 页结束 ,数目:{$sum}<hr>"; } ?>
// SyntaxHighlighter.config.clipboardSwf = "http://www.crazyant.net/js/code/clipboard.swf";SyntaxHighlighter.all();
// ]]>
数据采集结果,共采集了21页的数据
另外,还有一个更强大的PHP处理HTML的利器,号称和jquery更相似,并且比simplehtmldom强大,但是难学,叫做 phpquery,地址是:http://code.google.com/p/phpquery/
相关文章推荐
- 数据采集利器-PHP用DOM方式处理HTML之《Simple HTML DOM》
- 浅析php插件 Simple HTML DOM 用DOM方式处理HTML
- 工作记录:html网页采集利器:simple_html_dom,phpQuery
- 浅析php插件 Simple HTML DOM 用DOM方式处理HTML
- php插件 Simple_HTML_DOM 用DOM方式处理HTML
- php 数据抓取curl+simple_html_dom总结
- PHP simple_html_dom.php+正则 采集文章代码
- PHP simple_html_dom.php+正则 采集文章代码
- simple_html_dom.php 使用 乱码处理<作者:gaoming13>
- simple_html_dom.php 使用 乱码处理<作者:gaoming13>
- html基础 post方式提交数据给后台的php处理
- html基础 post方式提交数据给后台的php处理
- PHP的采集插件simple_html_dom的转码bug
- php解释DOM的又一利器:phpQuery(比simple html dom要强呢)
- PHP采集利器:根据开始字符串和结束字符串截取需要的采集内容数据
- PHP Simple HTML DOM Parser Manual-php解析DOM
- PHP解析html类库simple_html_dom的转码bug
- post方式采集网页数据-php采集网页-php爬虫视频教程7
- php解析html类库simple_html_dom
- 极其简便的PHP HTML DOM解析器PHP Simple HTML DOM Parser/有中文手册