您的位置:首页 > 其它

web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?

2012-08-04 11:35 1006 查看
目录:

web数据采集核心技术分享系列(一)做一个强大的web数据采集系统,你需要什么?

web数据采集核心技术分享系列(二)如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?

web数据采集核心技术分享系列(三)如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?

web数据采集核心技术分享系列(四)利用神经网络实现网页验证码破解

应各位热心看客的要求建了个QQ群:254764602,欢迎大家加群一起讨论,互相学习进步。

加群请输入暗号“数据采集”,否则不加

很久没有写博客了,一直在默默的学习,经常感到网上太多太多的技术分享都是入门级别的转载,想要找点核心的东西很难,真正掌握核心的企业和大牛都不愿透露哪怕一点点的思路,所以渐渐我就有了这个想法,希望能把核心的技术至少是思路能跟大家一起分享,一起探讨学习。

这是开篇,不废话,先发布一个目录列出我所想探讨的话题,征求一下大家的意见,看大家都对那些感兴趣,如果你认为有价值的话题没有列上去,请留言告诉我,有必要的话我会斟酌后加上。

1.如何提取信息?字符串?正则?xpath?xslt?自定义?...什么才是王道?

2.如何破解验证码?图像分析?特征匹配?人工智能?第三方集成?...哪个最强大?

3.如何防止被封IP?悠着点采?重新拨号换IP?代理?云计算?...谁能提供终极方案?

4.如何应对网站改变?改代码?改模版?智能定位?模拟人工?...如何随机应变?

5.大家都到云上去了?采集如何到云上去?

6.新一代数据采集系统架构设计

暂列这几个,稍后看大家的兴趣再调整增补,因本人能力有限,虽在web数据采集领域奋战多年,却也不可能在web数据采集的各个方面都提供最牛逼的解决方案和思路,还请各位看官本着互相交流学习,一起进步成长的态度来批评指正,欢迎留言。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐