您的位置:首页 > 其它

使用System.Text.RegularExpression中的API实现网页数据的抓取

2008-03-31 16:20 411 查看
今天朋友提出希望做一个程序可以从一张HTML网页上截取表格数据并导入数据库(点击此处查看目标页面)。在确认此网站并未提供任何开放的服务接口后,确定了从HTML页面代码抓取有效数据的方案,通过查阅相关资料,该方案主要通过两种途径实现:

途径A: 使用WebRequest, WebResponse获取HTML流,根据正则表达式判断并截取有效数据。

途径B: 使用WebBrowser创建一个HtmlDocument对象,然后使用类似DOM的方式操作HTML元素获取有效数据。

该网站提供的页面比较特殊,HTML元素均没有ID属性,故采用途径A实现。 阅读全文
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: