Java 爬虫工程师技能列表
2016-02-27 22:30
459 查看
摘要: 某网友总结,很全面
1,java
2,熟悉js, ajax
3,网页去重,找到网站特点
4,分布式
5,多线程
6,一种关系型数据库mysql/oraclelserver
7,正则表达式、css selector, xpath
8,DNS cache
9,TCP/IP/Http协议
tp2.010,web登录协议
10, SSO,OAuth原理
11,反爬策略
12,熟悉httpClient
13, 熟悉一些提取工具
14,搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15,熟悉XML、JSON、SOAP协议;
16,mongodb, redis, hbase, hadoop
17,文本分析,机器学习、数据挖掘、自然语言处理
18,完成网页,微博,微信,贴吧,论坛等数据信息的精准抽取
19,RPC协议
20,netty,NIO
21,HTMLUnit,PhantomJS,SlimerJS ,CasperJS
22,代理部署方案:http/socks
23,nginx, squid,jetty
24,破解ios
25,验证码,ocr
掌握一半便是熟练的爬虫开发了,全部掌握的人,还没遇到过。
交流群:177655321
欢迎高手入群
1,java
2,熟悉js, ajax
3,网页去重,找到网站特点
4,分布式
5,多线程
6,一种关系型数据库mysql/oraclelserver
7,正则表达式、css selector, xpath
8,DNS cache
9,TCP/IP/Http协议
tp2.010,web登录协议
10, SSO,OAuth原理
11,反爬策略
12,熟悉httpClient
13, 熟悉一些提取工具
14,搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15,熟悉XML、JSON、SOAP协议;
16,mongodb, redis, hbase, hadoop
17,文本分析,机器学习、数据挖掘、自然语言处理
18,完成网页,微博,微信,贴吧,论坛等数据信息的精准抽取
19,RPC协议
20,netty,NIO
21,HTMLUnit,PhantomJS,SlimerJS ,CasperJS
22,代理部署方案:http/socks
23,nginx, squid,jetty
24,破解ios
25,验证码,ocr
掌握一半便是熟练的爬虫开发了,全部掌握的人,还没遇到过。
交流群:177655321
欢迎高手入群
相关文章推荐
- Java泛型
- java并发(二十五)java7之fork-join框架
- Eclipse中安卓程序打包及签名
- RxJava过滤操作符 filter
- Exception in thread "main" java.lang.NoClassDefFoundError: UDP_Receive (wrong na me: com/ray/net/UDP_Receive)
- struts【2】(FilterDispatcher is deprecated)
- spring mvc时间String转date(三)
- [踩过的坑]spring事务为什么不回滚!
- JAVASE基础 Item -- 多线程,并发
- struts2中的jsp值传到后台action接收的三种方法
- java annotation
- R.java不能自动更新
- JSTL中EL标签与Struts2中OGNL标签在JSP页面上的区别
- java学习日记——继承中方法的重写
- java default使用
- 20145208 《Java程序设计》第0周学习总结
- Java Lambda表达式入门[转]
- java 序列化
- 【java】----日期函数大全
- Caused by: java.lang.ClassNotFoundException: com.mchange.v2.c3p0.ComboPooledDataSource