QWebKit-Qt利用DOM API访问网页元素(百度博客下载例子)
2014-10-12 11:02
197 查看
Qt-4.6.0新增的一个功能就是QtWebKit提供了利用DOM访问管理网页的接口。
所谓DOM(文件对象模型),就是把一个HTML网页内容以一个带层次结构的对象来处理,比如网页中的标题,段落,图表等都是这个层次对象中的一个节点。这些节点可大可小,顶级节点就是整个文档,最小的节点可以是网页中的一个链接,或者一个图片。利用DOM就能很方便的提取和处理网页中用户所感兴趣的内容。下面用一个对百度博客的处理来简单说明。
比如:http://hi.baidu.com/yobin/blog/item/9036520f8c85a1216159f366.html,这个网页里有博客的标题,博客的具体内容,以及前一篇和后一篇的链接。我们通过网页的源代码可以看到有
<div id=”m_blog” style=”overflow-x:hidden;”>
<div>这个城市(2)</div>
—-无关内容—
</div>
这里的<div>开始和</div>结束就是一个节点,id为”m_blog“在百度博客里指明是和博客内容相关的部分。对应在Qt里对应的对象类是QWebElement,如果我们要读取这里的标题可以用下面代码实现。
QWebElement doc = mainframe->documentElement();
QWebElement m_blog = doc.findFirst(“#m_blog”);
QWebElement e_title = m_blog.findFirst(“.tit”);
title->setText(e_title.toPlainText());
这里mainframe是QWebFrame类型的对象,mainframe->documentElement()获得了整个文章的内容,是顶级节点。通过doc.findFirst(“#m_blog”)可以找到整个文章中m_blog第一次出现的地方。然后再在这个节点里寻找class为tit的子节点,toPlainText()能够获得节点中的内容。注意findFirst里的参数语法#号开头的查找id名的,点号”.”开头的则是查找class名字的,如果没有前面符号的则是查找标准HTML标记比如findFirst(“body”)。当然这些语法可以组合起来使用,符合CSS选择器的标准语法,请参考Standard
CSS2 selector syntax。查找QWebElement子元素的方法还有 firstChild(),nextSibling (),parent (),previousSibling()等,具体内容可以查看QWebElement的类帮助。
下面再来看一下前后篇文章链接的HTML代码是如何的.
<div id=”in_nav”>
上一篇:<a title=”新股中签的回报率” href=”/yobin/blog/item/86ad9223e5add74fad34de92.html”>新股中签的回报率</a>
下一篇:<a title=”人民时评:且看美国的信息自由” href=”/yobin/blog/item/dc3491587b51cbd59c8204ba.html”>人民时评:且看美国的信息自由</a></div>
HTML中除了标签内容之外,还有关于这个标签的属性,可以用attribute()来得到,下面是Qt读取链接的代码
QWebElement e_nav=m_blog.findFirst(“#in_nav”);
QWebElement prev_nav=e_nav.findFirst(“a”);
prev->setText(“http://hi.baidu.com”+prev_nav.attribute(“href”));
QWebElement next_nav=prev_nav.nextSibling();
next->setText(“http://hi.baidu.com”+next_nav.attribute(“href”));
有了前后文链接,要下载博客里所有文章就不是难事了。下面是我的例子代码和截图
所谓DOM(文件对象模型),就是把一个HTML网页内容以一个带层次结构的对象来处理,比如网页中的标题,段落,图表等都是这个层次对象中的一个节点。这些节点可大可小,顶级节点就是整个文档,最小的节点可以是网页中的一个链接,或者一个图片。利用DOM就能很方便的提取和处理网页中用户所感兴趣的内容。下面用一个对百度博客的处理来简单说明。
比如:http://hi.baidu.com/yobin/blog/item/9036520f8c85a1216159f366.html,这个网页里有博客的标题,博客的具体内容,以及前一篇和后一篇的链接。我们通过网页的源代码可以看到有
<div id=”m_blog” style=”overflow-x:hidden;”>
<div>这个城市(2)</div>
—-无关内容—
</div>
这里的<div>开始和</div>结束就是一个节点,id为”m_blog“在百度博客里指明是和博客内容相关的部分。对应在Qt里对应的对象类是QWebElement,如果我们要读取这里的标题可以用下面代码实现。
QWebElement doc = mainframe->documentElement();
QWebElement m_blog = doc.findFirst(“#m_blog”);
QWebElement e_title = m_blog.findFirst(“.tit”);
title->setText(e_title.toPlainText());
这里mainframe是QWebFrame类型的对象,mainframe->documentElement()获得了整个文章的内容,是顶级节点。通过doc.findFirst(“#m_blog”)可以找到整个文章中m_blog第一次出现的地方。然后再在这个节点里寻找class为tit的子节点,toPlainText()能够获得节点中的内容。注意findFirst里的参数语法#号开头的查找id名的,点号”.”开头的则是查找class名字的,如果没有前面符号的则是查找标准HTML标记比如findFirst(“body”)。当然这些语法可以组合起来使用,符合CSS选择器的标准语法,请参考Standard
CSS2 selector syntax。查找QWebElement子元素的方法还有 firstChild(),nextSibling (),parent (),previousSibling()等,具体内容可以查看QWebElement的类帮助。
下面再来看一下前后篇文章链接的HTML代码是如何的.
<div id=”in_nav”>
上一篇:<a title=”新股中签的回报率” href=”/yobin/blog/item/86ad9223e5add74fad34de92.html”>新股中签的回报率</a>
下一篇:<a title=”人民时评:且看美国的信息自由” href=”/yobin/blog/item/dc3491587b51cbd59c8204ba.html”>人民时评:且看美国的信息自由</a></div>
HTML中除了标签内容之外,还有关于这个标签的属性,可以用attribute()来得到,下面是Qt读取链接的代码
QWebElement e_nav=m_blog.findFirst(“#in_nav”);
QWebElement prev_nav=e_nav.findFirst(“a”);
prev->setText(“http://hi.baidu.com”+prev_nav.attribute(“href”));
QWebElement next_nav=prev_nav.nextSibling();
next->setText(“http://hi.baidu.com”+next_nav.attribute(“href”));
有了前后文链接,要下载博客里所有文章就不是难事了。下面是我的例子代码和截图
相关文章推荐
- Qt利用DOM API访问网页元素(百度博客下载例子)
- Qt利用JavaScript访问网页元素(百度博客下载例子)
- Qt利用JavaScript访问网页元素(百度博客下载例子)
- 利用百度API获取mp3及歌词lrc下载地址
- 利用百度API获取mp3及歌词lrc下载地址
- android定时定位 - 利用百度定位API来实现定时定位功能
- android利用百度api解析经纬度
- Flex中利用ExternalInterface API从HTML模板(HTML templates)中调用ActionScript函数的例子
- 利用API下载文件,HTTP
- 利用新浪api获取ip归属地 - QtSharp - 博客园
- apiexample.c例子教我们如何利用FFMPEG库中的API函数来编写自己的编解码程序
- 利用Sap2000API和C#开发插件的小例子(添加混凝土材料模块)
- 一个基于WinCE平台的语音识别例子,利用微软speechAPI5.0
- js可以利用dom非常轻松的就可以遍历一个表格。当然只要是dom中有的所有对象都可以通过js来访问和处理。
- Flex中利用FileReference类下载文件的例子
- Flex中利用ExternalInterface API从JavaScript中获取内容并在Flex应用中使用的例子
- android定时定位 - 利用百度定位API来实现定时定位功能
- 利用Dom+js 动态产生table 例子
- 批量下载百度博客所有的 css 代码
- 利用API在FTP服务器上上传和下载文件