网友提问---一个稍微用点技巧的内容采集方法
2012-05-18 23:28
281 查看
网友的提问地址:http://bbs.locoy.com/spider-75585-1-1.html
网友问题概述:
该网友要采集内容的源代码如下:<td valign=top>第1张</td></tr></table></li><li>
.......
<a href='4586_9.html' ...........
<td valign=top>第9张</td></tr></table></li><li>
<a href='4586_10.html' target='_blank'><img src='../up/allimg/512/041Q2120249/12041Q20249-9-lp.jpg' border='0' width='200' heigth='100'></a><table align=center width=85% border=0 cellspacing=0 cellpadding=0><tr>
<td valign=top>第10张</td></tr></table></li></ul></div></div></div></div></td></tr>看该源码,可以了解到该网页大概是一个图片的列表。该网友要采集的是图片列表中的最后那张图片的标记文字,在这个例子中是这个数字“10”。
这个内容采集的难点是:
由于“第1张”到“第10张”的html界定代码定义的完全一样,所以,如果想要专门去获取这个10,是无法去确定这个“开始字符串”和“结束字符串”的。
我的思路:
利用标签循环处理功能结合内容过滤功能来实现最终目的。
不过,具体如何实施效果,我在等该网友能否给出原始的测试网址,测试通过后。然后再更新吧。
网友问题概述:
该网友要采集内容的源代码如下:<td valign=top>第1张</td></tr></table></li><li>
.......
<a href='4586_9.html' ...........
<td valign=top>第9张</td></tr></table></li><li>
<a href='4586_10.html' target='_blank'><img src='../up/allimg/512/041Q2120249/12041Q20249-9-lp.jpg' border='0' width='200' heigth='100'></a><table align=center width=85% border=0 cellspacing=0 cellpadding=0><tr>
<td valign=top>第10张</td></tr></table></li></ul></div></div></div></div></td></tr>看该源码,可以了解到该网页大概是一个图片的列表。该网友要采集的是图片列表中的最后那张图片的标记文字,在这个例子中是这个数字“10”。
这个内容采集的难点是:
由于“第1张”到“第10张”的html界定代码定义的完全一样,所以,如果想要专门去获取这个10,是无法去确定这个“开始字符串”和“结束字符串”的。
我的思路:
利用标签循环处理功能结合内容过滤功能来实现最终目的。
不过,具体如何实施效果,我在等该网友能否给出原始的测试网址,测试通过后。然后再更新吧。
相关文章推荐
- 设计技巧18:组合模式 Composite 对容器和内容共用一个方法
- curl实现站外采集的方法和技巧
- 在rials 中使用bootstrap 的modal对话框 实现一个弹窗显示多层次内容的方法
- 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容
- 不用模板,只用ASP+FSO生成静态HTML页的一个方法(对于内容密集型页面特别适用) 选择自 goaler 的 Blog
- winform+access论坛上许多初学提问,这里共享我的一个方法:
- 招聘:制作一个内容采集的网站
- 获取内容的一个curl类(采集专用)
- Excel技巧1:将符合要求的多个单元格内容合并到一个单元格
- 定义一个文件输入流,调用read(byte[] b)方法,将a.txt文件中的内容打印出来(byte数组大小限制为5)
- 一个超简单的方法验证文本框中内容的数据类型
- 一个带采集远程文章内容,保存图片,生成文件等完整的采集功能
- Android UI 之居间绘制文本内容的正确方法——实现自定义一个TextView
- 推荐一个text或ntext 字段内容替换方法
- java获得采集网页内容的方法小结
- C Primer plus 10.2 初始化一个double类型的数组,然后把该数组的内容拷贝至3个其它的数组中,使用带数组的表示方法的函数进行第一份拷贝,使用带指针表示方法和指针递增的函..
- 定义一个文件输入流,调用 read(byte[] b)方法将 exercise.txt 文件中的所有内容打印出来 (byte 数组的大小限制为 5)。
- ajax局部刷新一个div下jsp内容的方法
- jquery创建一个新的节点对象(自定义结构/内容)的好方法