您的位置:首页 > 运维架构 > 网站架构

Android利用Jsoup解析html 开发网站客户端小记

2015-01-21 12:28 639 查看
这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容。好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体jsoup的相关文档,请去这边看http://jsoup.org/,这里有全部Api可以查询。

这里解析的网站是一个食谱网站,首先解析的是大类栏目标签。



如果你使用过jquery那么 ,接下来的事情就小菜一碟了,我们按F12进入浏览器的开发者模式,去分析当前html页面的结构,如下图:



每个<li></li>标签里面的值就是我们需要的,接下来我们需要异步去获取网页信息,首先创建一个连接,生成一个Document对象,取得标题所在<ul>的id值,通过select过滤。

Elements divs = content.select("#siteNav");


然后通过Jsoup去解析上图的标签,通过循环取出标题栏还有子目录的超链接,插入数据库,超链接用作展开子目录的网页地址,像这种网站大的标题结构一般是不会改变的,可以留作缓存,而不用每次进入总要加载解析。

//异步获取信息
class Loadhtml extends AsyncTask<String, String, String>
{
ProgressDialog bar;
Document doc;
@Override
protected String doInBackground(String... params) {
// TODO Auto-generated method stub
try {
doc = Jsoup.connect(Constans.NetAddress).timeout(5000).post();
Document content = Jsoup.parse(doc.toString());
Elements divs = content.select("#siteNav");
Document divcontions = Jsoup.parse(divs.toString());
Elements element = divcontions.getElementsByTag("li");
Log.d("element", element.toString());
for(Element links : element)
{
String title = links.getElementsByTag("a").text();

String link   = links.select("a").attr("href").replace("/", "").trim();
String url  = Constans.NetAddress+link;
ContentValues values = new ContentValues();
values.put("Title", title);
values.put("Url", url);
usedatabase.insert("Cach", values);
}

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}

@Override
protected void onPostExecute(String result) {
// TODO Auto-generated method stub
super.onPostExecute(result);
//            Log.d("doc", doc.toString().trim());
bar.dismiss();
ListItemAdapter adapter = new ListItemAdapter(context, usedatabase.getlist());
listmenu.setAdapter(adapter);
}

@Override
protected void onPreExecute() {
// TODO Auto-generated method stub
super.onPreExecute();

bar = new ProgressDialog(context);
bar.setMessage("正在加载数据····");
bar.setIndeterminate(false);
bar.setCancelable(false);
bar.show();
}

}


最终手机断显示



今天就总结到这里,下次具体讲解析完数据后,通过SQLITE存储,还有每个标题的子目录展开等。

转自:/article/5041045.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: