java爬虫(Jsoup)爬取某新闻站点标题
2016-06-08 17:14
585 查看
需要一个包:jsoup-1.7.3.jar
有一定的java和js基础的人,一看就懂了!
一个不错的Jsoup中文文档下载地址:http://download.csdn.net/detail/apache2011/4517327
2016-6-8 下午5点,五毛网的第一页新闻的标题如下:
下一遍 抓评论
地址:http://blog.csdn.net/disiwei1012/article/details/51678977
有一定的java和js基础的人,一看就懂了!
一个不错的Jsoup中文文档下载地址:http://download.csdn.net/detail/apache2011/4517327
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class JsoupTest { /** * @param args * @throws Exception */ public static void main(String[] args) throws Exception { getWuMaoW(); } //获取5毛网上的文章标题 public static void getWuMaoW(){ String url = "http://www.wumaow.com"; Document doc = null; try { doc = Jsoup.connect(url).get(); Elements listDiv = doc.getElementsByAttributeValue("class", "post"); for(Element element : listDiv){ Elements texts = element.getElementsByTag("h4"); for(Element text:texts){ String ptext = text.text(); System.out.println("标题:"+ptext); } } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } }
2016-6-8 下午5点,五毛网的第一页新闻的标题如下:
下一遍 抓评论
地址:http://blog.csdn.net/disiwei1012/article/details/51678977
相关文章推荐
- Python3写爬虫(四)多线程实现数据爬取
- Scrapy的架构介绍
- 爬虫笔记
- W3C api 抓取
- 基于C#实现网页爬虫
- Nodejs爬虫进阶教程之异步并发控制
- PHP+HTML+JavaScript+Css实现简单爬虫开发
- Android开发之利用jsoup解析HTML页面的方法
- 如何优雅地使用c语言编写爬虫
- PHP实现简单爬虫的方法
- NodeJS制作爬虫全过程(续)
- php实现简单爬虫的开发
- node.js基础模块http、网页分析工具cherrio实现爬虫
- PHP爬虫之百万级别知乎用户数据爬取与分析
- 一个PHP实现的轻量级简单爬虫
- nodejs爬虫抓取数据乱码问题总结
- 基于Node.js的强大爬虫 能直接发布抓取的文章哦
- nodeJs爬虫获取数据简单实现代码
- nodejs爬虫抓取数据之编码问题
- Node.js编写爬虫的基本思路及抓取百度图片的实例分享