利用Java抓取网页数据步骤
2014-11-15 23:03
225 查看
利用Java抓取网页数据步骤:
1.先到网上找到对应的元素,网页内容标签格式为:
其中编码样式为 UTF-8
<html>
<head>
<meat content=“text/html”; charset = “utf-8”>
</head>
<body>
<ul>
<li>
<a
href="http://dota.uuu9.com/hero/AM/">
<img
src="http://dotadb.uuu9.com/UploadFiles/Dota/Hero/dfss.jpg">
<p>敌法师</p>
</a>
</li>
</ul>
</body>
</html>
2.在eclipse里面新建一个测试工程 dota(随便取名,制作测试)
需要用到第三方jar 包 Jsoup.jar
实现代码:
public class DataTest{
public static void main(String[] args)
{
try{
// 1.文件路径
String path = “/Users/apple/Desktop/dota.html”;
// 2.加载网页
Document doc = Jsoup.parse(new File(path),”UTF-8”);
// 3.解析网页
Elements lis = doc.select(“li”);
// 4.遍历数组
for(int i = 0;i<lis.size();i++){
// 拿到每一个数组元素
Element li = lis.get(i);
// 选择li 标签下的img标签拿到第一个
Element img = li.select(“img”).get(0);
// 取出图片名
String imgName = img.attr(“src”);
// 拿到p标签及p标签里面的文本
Element p =li.select(“p”).get(0);
String personName = p.text();
}
}catch(Exception e){
e.printStackTrace();
}
}
打印:贴图效果 在eclipse中将 Xcode 里面的数组打印出来
}
1.先到网上找到对应的元素,网页内容标签格式为:
其中编码样式为 UTF-8
<html>
<head>
<meat content=“text/html”; charset = “utf-8”>
</head>
<body>
<ul>
<li>
<a
href="http://dota.uuu9.com/hero/AM/">
<img
src="http://dotadb.uuu9.com/UploadFiles/Dota/Hero/dfss.jpg">
<p>敌法师</p>
</a>
</li>
</ul>
</body>
</html>
2.在eclipse里面新建一个测试工程 dota(随便取名,制作测试)
需要用到第三方jar 包 Jsoup.jar
实现代码:
public class DataTest{
public static void main(String[] args)
{
try{
// 1.文件路径
String path = “/Users/apple/Desktop/dota.html”;
// 2.加载网页
Document doc = Jsoup.parse(new File(path),”UTF-8”);
// 3.解析网页
Elements lis = doc.select(“li”);
// 4.遍历数组
for(int i = 0;i<lis.size();i++){
// 拿到每一个数组元素
Element li = lis.get(i);
// 选择li 标签下的img标签拿到第一个
Element img = li.select(“img”).get(0);
// 取出图片名
String imgName = img.attr(“src”);
// 拿到p标签及p标签里面的文本
Element p =li.select(“p”).get(0);
String personName = p.text();
}
}catch(Exception e){
e.printStackTrace();
}
}
打印:贴图效果 在eclipse中将 Xcode 里面的数组打印出来
}
相关文章推荐
- 利用Java实现简单的抓取网页数据并存放于plist中
- 利用Java抓取网页数据
- Java抓取网页数据(原网页+Javascript返回数据)
- java中利用开源HttpClient包抓取网页
- java抓取网页数据示例
- Java抓取网页数据(原网页+Javascript返回数据)
- 关于java抓取网页数据与图片
- java网页数据抓取
- JAVA关于抓取网页数据(不用正则)
- Java抓取网页数据(原网页+Javascript返回数据)
- 基于webmagic的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
- Java抓取网页数据(原网页+Javascript返回数据)
- java利用url解析网页内容并模拟手动form提交数据
- Java抓取网页数据(原网页+Javascript返回数据) .
- java中利用URL抓取网页内容
- java 抓取 网页 数据
- Java抓取网页数据(原网页+Javascript返回数据)
- Java抓取网页数据
- 利用Jsoup解析网页,抓取数据的简单应用
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片