自己动手做网络爬虫系列——1
2014-01-15 14:58
218 查看
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
相信很多人都用J***A或者C++写过网络爬虫,但是都存在代码过于复杂、爬虫难以维护的问题。也有很多人使用脚本语言编写过网络爬虫,但是这些脚本很多时候不妨变嵌入大型的系统,或者语法怪异,难以上手。
我们教程中选择了一门适合中小型工程的爬虫脚本语言作为爬虫的编写语言:CrawlScript。这门脚本语言底层是用J***A实现的,可以很方便地被其他J***A程序调用。之所以选择这门语言,还有一个重要的原因,CrawlScript脚本遵循javascript的规范,只要学过javascript的人,可以在几分钟内轻松上手。不多做介绍了,开始详细的教程。
下载 CrawlScript
首先,下载CrawlScript的jar包:CrawlScript beta 0.3版及demo下载。
下载完成后,解压。找到CrawlScript-bin文件夹。
下面我们来介绍如果编写和运行CrawlScript。
1.用命令行进入工程里的CrawlScript-bin文件夹.
2.在命令行输入java -jar crawlscript.jar即可进入crawlscript的shell.
3.开始编写CrawlScript脚本,回车运行.
例如:
1)输入doc=$("http://www.baidu.com") ,回车,可看到百度首页的所有文字。
2)继续输入doc.a() ,回车,即可看到百度首页的所有超链接中的文字.
3)继续输入write("log.txt",doc.a()); ,回车,查看CrawlScript-bin文件夹,可发现生成了log.txt文件,里面是百度首页所有超链接的文本信息.
1.运行CrawlScript Shell,输入命令load(文件路径).
例如:在CrawlScript-bin文件夹下有一个demo.js,进入CrawlScript Shell后,输入load("demo.js")即可运行demo.js这个脚本。
2.在CrawlScript-bin目录下,运行命令: java -jar crawlscript.jar 文件路径.
例如:在CrawlScript-bin文件夹下有一个demo.js,用命令行进入CrawlScript-bin目录,运行命令:java -jar crawlscript.jar demo.js
注:demo.js是一个完整的爬虫,可以爬取新华网所有的新闻正文(放到CrawlScript-bin/download文件夹中),由于爬虫初始化,启动需要1分钟.
下一课,我们介绍CrawlScript的编写语法。
相信很多人都用J***A或者C++写过网络爬虫,但是都存在代码过于复杂、爬虫难以维护的问题。也有很多人使用脚本语言编写过网络爬虫,但是这些脚本很多时候不妨变嵌入大型的系统,或者语法怪异,难以上手。
我们教程中选择了一门适合中小型工程的爬虫脚本语言作为爬虫的编写语言:CrawlScript。这门脚本语言底层是用J***A实现的,可以很方便地被其他J***A程序调用。之所以选择这门语言,还有一个重要的原因,CrawlScript脚本遵循javascript的规范,只要学过javascript的人,可以在几分钟内轻松上手。不多做介绍了,开始详细的教程。
下载 CrawlScript
首先,下载CrawlScript的jar包:CrawlScript beta 0.3版及demo下载。下载完成后,解压。找到CrawlScript-bin文件夹。
下面我们来介绍如果编写和运行CrawlScript。
运行 CrawlScript Shell
CrawlScript Shell是编写和运行CrawlScript最常用的方式之一,运行方式如下:1.用命令行进入工程里的CrawlScript-bin文件夹.
2.在命令行输入java -jar crawlscript.jar即可进入crawlscript的shell.
3.开始编写CrawlScript脚本,回车运行.
例如:
1)输入doc=$("http://www.baidu.com") ,回车,可看到百度首页的所有文字。
2)继续输入doc.a() ,回车,即可看到百度首页的所有超链接中的文字.
3)继续输入write("log.txt",doc.a()); ,回车,查看CrawlScript-bin文件夹,可发现生成了log.txt文件,里面是百度首页所有超链接的文本信息.
运行CrawlScript脚本文件
运行CrawlScript脚本文件有两种方式:1.运行CrawlScript Shell,输入命令load(文件路径).
例如:在CrawlScript-bin文件夹下有一个demo.js,进入CrawlScript Shell后,输入load("demo.js")即可运行demo.js这个脚本。
2.在CrawlScript-bin目录下,运行命令: java -jar crawlscript.jar 文件路径.
例如:在CrawlScript-bin文件夹下有一个demo.js,用命令行进入CrawlScript-bin目录,运行命令:java -jar crawlscript.jar demo.js
注:demo.js是一个完整的爬虫,可以爬取新华网所有的新闻正文(放到CrawlScript-bin/download文件夹中),由于爬虫初始化,启动需要1分钟.
下一课,我们介绍CrawlScript的编写语法。
相关文章推荐
- 自己动手做网络爬虫系列——2 CrawlScript基本语法。
- 自己动手做ML算法系列(1)– Gradient Descent
- 【SoftKeyboard研究系列】自己动手做最简单的SoftKeyboard
- 自己动手做ML算法系列(2)– Neural Network
- API入门系列之六 -自己实现MessageBox
- Caffe实战系列:实现自己Caffe网络层
- 图标网站,IcoMoon,自己动手做一个 font
- 自己动手做动态网站并发布遇到的问题(写给刚接触动态网站的初学者)
- 楼主最近遇到一个需求就在在ext 框架里实现右下角弹框提示,就自己动手做了一个
- <仅是自己做笔记。。。系列-8>输入一颗二元树,从上往下按层打印树的每个结点,同一层中按照从左往右的顺序打印。
- mootools系列:打造属于你自己的Popup(弹出框)——扩展功能篇
- <仅是自己做笔记。。。系列-14>输入两个整数序列。其中一个序列表示栈的push顺序, 判断另一个序列有没有可能是对应的pop顺序。
- D3D游戏编程系列(四):自己动手编写即时战略游戏之网络同步
- JS组件系列——又一款MVVM组件:Vue(二:构建自己的Vue组件)
- 打造自己的专业图像工具-Visual C++ 2005图像编程系列【二】
- 打造自己的专业图像工具-Visual C++ 2005图像编程系列【五】(上)
- 自己理解的系列(1) Profile
- JS组件系列——自己动手封装bootstrap-treegrid组件
- Caffe新手教程傻瓜系列(9):训练和测试自己的图片
- (转)Caffe学习系列(12):训练和测试自己的图片