根据给定的URL自动获取其中的正文
2013-02-04 12:19
225 查看
采用了哈工大“基于行块分布函数”的算法实现,示例代码如下:
import apollo.crawler.core.net.TextExtract;
public class TextExtractDemo {
/**
* @param args
*/
public static void main(String[] args) {
String urlStr = args[0];
System.out.println(new TextExtract().getTextFromUrl(urlStr));
}
}
需要添加依赖库apollo-crawler-core-1.0.0.jar
import apollo.crawler.core.net.TextExtract;
public class TextExtractDemo {
/**
* @param args
*/
public static void main(String[] args) {
String urlStr = args[0];
System.out.println(new TextExtract().getTextFromUrl(urlStr));
}
}
需要添加依赖库apollo-crawler-core-1.0.0.jar
相关文章推荐
- 根据固定的连接地址(url),获取其中想要的连接地址
- 根据给定的url获取域名
- java根据网页URL获取正文信息,并调整正文格式为段落显示---(两种方式)
- C# 根据URL返回HTML_根据URL获取图片信息/缩略图
- 用python怎样爬网页呢?其实就是根据URL来获取它的网页信息!
- 根据WSDL的URL来获取服务中的所有方法
- C# 根据Url获取页面所有内容
- java根据url获取json对象 java根据ip获取地理位置
- 根据Flickr的分享Url获取图片地址
- php 根据给定的年份和月份获取该年份该月份的起始和结束时间
- 服务器端根据数据库图片的url获取保存的图片并进行缩略后返回给客户端-压缩之Thumbnails
- snoopy_with_thinkphp 一个根据url异步获取网页内容的thinkphp小demo
- 视频根据url获取第一帧图片,获取任一帧图片
- Android中如何根据图片url路径来获取网络图片
- java根据url获取数据
- delphi根据URL获取缓存文件的方法
- 根据url路径获取图片并显示到ListView中
- [原创]自动获取当前URL所属主域的JS方法(适合多级域名)
- js页面根据url中的字符串,获取中文
- 服务器端根据数据库图片的url获取保存的图片并进行缩略后返回给客户端-压缩之Thumbnails