您的位置:首页 > 大数据

大数据时代的数据获取

2017-10-15 14:25 99 查看
 
垂直领域数据获取: 
        c、c++
、PHP 、per:  curl级别上单机、多线程
一天下载 1000W 网页是没有问题
         java : 用 jsoup、直接用 httpclient
发请求
         c、c++ :
可以用这个 spiders 比较轻编译后配置一下种子 就可以工作
       相关领域的APP下载分析获取相关数据
         
网页解析:网页内容抽取用正则表达式简单       
      java : jsoup
解析网页
      php :  simple_html_dom.php
      c\c++ : webkit
成本巨高 不建议
      javascript : phantomjs  
      GitHub:查一下
数据清洗: 前期用规则 数据量不大比较可行 

数据库:1、关系型 mysql
;  2、nosql: ssdb、redis
、levelDB
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据 抓取