您的位置：首页 > 编程语言 > Java开发

一般网页信息抓取(Java htmlparser)

2013-12-11 17:37 246 查看

大家好！这个暑假参加了花旗银行举办的一个软件设计比赛，惭愧，小菜鸟一个。不过也学到了不少东西，辛苦所得，特此来和大家分享。各位大牛勿喷，给点鼓励

一般网页信息抓取 --Java篇

举例： http://forex.hexun.com/rmbhl/ 这是和讯外汇网，比如现在我想要抓取网页中段

人名币牌价部分的数据，来显示到我们的javawidget上，如图

大致可以看到，这是类似于 javaswing组件中JTabbedPane
的形式，中行牌价，交行牌价，工行牌价，招行牌价

好，由于是在网页上，我抓取分析它的html代码来分析（笨办法啊）。

1. 你可以选择用Java代码来找到整个网页的html代码，如下

(注意在处理网页方面的内容时，需要导入htmlparser包来支持，方便得多，具体可以Google)

import
org.htmlparser.util.ParserException;
import
org.htmlparser.visitors.HtmlPage;
import
org.htmlparser.Parser;
import
org.htmlparser.filters.HasAttributeFilter;
import
org.htmlparser.util.NodeList;

public
class htmlmover {
public
static void
main(String[] args){
NodeList rt=
getNodeList("http://forex.hexun.com/rmbhl/");
System.out.println(rt.toHtml());
}
public
static NodeList getNodeList(Stringurl){
Parser parser =
null;
HtmlPage visitor =
null;
try
{
parser =
new
Parser(url);
parser.setEncoding("GBK");
visitor =
new
HtmlPage(parser);
parser.visitAllNodesWith(visitor);
}
catch
(ParserException e) {
e.printStackTrace();
}
NodeList nodeList = visitor.getBody();
return
nodeList;
}
}

以上代码，public
static NodeList getNodeList(Stringurl)
为主体

传入需要分析网页的 url(String类型)，返回值是网页Html节点List(Nodelist类型)

这个方法我没有什么要说的，刚开始的时候没看懂（没接触过），后来用了几次也懂点皮毛了

注意： parser.setEncoding("GBK"); 可能你的工程编码格式是UTF-8,有错误的话需要改动

运行该程序

2.通过浏览器工具直接查看 IE是按F12
（刚开始没发现这个方法，于是傻乎乎地找上面的代码）

分析你所获得的html代码让人眼花缭乱，不要紧，找到自己需要趴取的内容，找到它上下文有特征的节点



<divid="sw01_con1">

<table width="655" border="0" cellspacing="0"cellpadding="0" class="hgtab">

<thead>

<tr>

<th width="85" align="center"class="th_l">交易币种</th>

<th width="80"align="center">交易单位</th>

<th width="130"align="center">现价(人民币)</th>

<th width="80"align="center">卖出价</th>

<th width="100"align="center">现汇买入价</th>

<th width="95"align="center">现钞买入价</th>

</tr>

</thead>

<tbody>

<tralign="center">

<td> 英镑</td>

<td>100</td>

<td>992.7</td>

<td>1001.24</td>

<td>993.26</td>

<tdclass="no">962.6</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>港币</td>

<td>100</td>

<td>81.54</td>

<td>82.13</td>

<td>81.81</td>

<tdclass="no">81.16</td>

</tr>

<tralign="center">

<td>美元</td>

<td>100</td>

<td>635.49</td>

<td>639.35</td>

<td>636.8</td>

<tdclass="no">631.69</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>瑞士法郎</td>

<td>100</td>

<td>710.89</td>

<td>707.78</td>

<td>702.14</td>

<tdclass="no">680.46</td>

</tr>

<tralign="center">

<td>新加坡元</td>

<td>100</td>

<td>492.45</td>

<td>490.17</td>

<td>486.27</td>

<tdclass="no">471.25</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>瑞典克朗</td>

<td>100</td>

<td>93.66</td>

<td>93.79</td>

<td>93.04</td>

<tdclass="no">90.17</td>

</tr>

<tralign="center">

<td>丹麦克朗</td>

<td>100</td>

<td>116.43</td>

<td>115.59</td>

<td>114.67</td>

<tdclass="no">111.13</td>

</tr>

<tr align="center"bgcolor="#f2f3f4">

<td>挪威克朗</td>

<td>100</td>

<td>110.01</td>

<td>109.6</td>

<td>108.73</td>

<tdclass="no">105.37</td>

</tr>



</tbody>

</table>

</div>



大家可以看到这是一段很有规律，书写非常规范的Html代码（这只是第一部分，中行牌价，可以想像，接下来还会有并列的相似的3部分）

大家想截取这些节点中的数据

以下代码仍需导入htmlparser Java支持包

import
java.util.ArrayList;
import
java.util.regex.Matcher;
import
java.util.regex.Pattern;

import
org.htmlparser.Node;
import
org.htmlparser.NodeFilter;
import
org.htmlparser.Parser;
import
org.htmlparser.util.NodeList;
import
org.htmlparser.util.ParserException;

public
class Currencyrate {
public
static void
main(String[] args){
String url="http://forex.hexun.com/rmbhl/";
ArrayList<String> rt=getNodeList(url);
for
(int
i = 0; i < rt.size();i++){
System.out.println(rt.get(i));
}
}

public
static ArrayList<String>getNodeList(String url){
final
ArrayList<String>result=new
ArrayList<String>();
Parser parser =
null;
NodeListnodeList=null;
try
{
parser =
new
Parser(url);
parser.setEncoding("GBK");

nodeList = parser.parse(
new
NodeFilter(){
@Override
public
boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int
i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return
true;
}
return
false;
}
}
);
}catch
(ParserException e) {
e.printStackTrace();
}
return
result;
}

public
static boolean
getStringsByRegex(String txt){
String regex="td class=\"no\"";
Pattern p = Pattern.compile(regex);
Matcher m = p.matcher(txt);
if
(m.find()){
return
true;
}
return
false;
}
}

废话不多说，

public
static ArrayList<String>getNodeList(String url)
主要方法

parser.setEncoding("GBK"); 需要注意，代码编码格式

nodeList = parser.parse(
new
NodeFilter(){
@Override
public
boolean accept(Node node){
}
｝

);

nodelist是html节点的列表，现在使用NodeFilter ( 节点过滤器 )实例，重载NodeFilter类中的accept()方法

在parser这个Parser类访问整个html页面的时候，每遇到一个html节点，就会访问这个

accept()方法，返回True的话就会将这个节点放进nodelist中，否则就不会将这个节点放进去。这个就是NodeFilter功能。

代码段一获取整个html页面时候 parser.visitAllNodesWith(visitor);
就是获取所有节点

所以现在我们要趴取网页上的内容，只要告诉accept()这个方法，哪些节点要放进nodelist去，即遇到哪些节点需要返回true。

于是
public
boolean accept(Node node){
Node need=node;
if(getStringsByRegex(node.getText())){
for(int
i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}
return
true;
}
return
false;
}

Parser类在遇到节点，就把这个节点拿过去问accept()，于是accept()方法分析，如果满足getStringsByRegex(node.getText())就要了

接下来分析getStringsByRegex()，只剩下最后一步了，大家坚持啊！

String regex="td class=\"no\"";
Pattern p =Pattern.compile(regex);
Matcher m =p.matcher(txt);
if
(m.find()){
return
true;
}
return
false;
}
大家可以发现我们索要的每一段都是

<tralign="center">

<td> 英镑</td>

<td>100</td>

<td>992.7</td>

<td>1001.24</td>

<td>993.26</td>

<tdclass="no">962.6</td>

</tr>

所以只要找到<tdclass="no">这个节点就行了，我们用正则表达式去比较

String regex="td class=\"no\""; 这个是比较标准（正则表达式
td class=”no” 其中两个引号需要作为转义字符来表示
成\“ ）

变量txt是我们传过去的需要比较的节点的node.getText()，如果符合的话m.find就是true,于是getStringsByRegex()返回true，说明这个节点就是我们所需要的哪些节点，于是

for(int
i=0;i<6;i++){
result.add(need.toPlainTextString()); need=need.getPreviousSibling().getPreviousSibling();
}

每一段html，6个为一组，先是962.6，然后是993.26，1001.24，992.7，100，英镑分别被add进result这个ArrayList<String>中去，返回，这个ArrayList装的就是我们需要抓取的数据

大家可以把我们所获得的String数据数出来试试看，是不是我们需要的顺序，main()函数获得ArrayList<String>，就可以显示到我们所需要的Java widget上去了

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航