对于爬取 ajax 数据中获取的不合规定的 html 代码
2016-05-04 11:33
148 查看
今天爬取数据碰到爬取 ajax 数据
1.对于 ajax URL 的获取,可以通过火狐浏览器 按 F12 调试模式 中 控制台 查看
2.对于获取的数据 的格式
<div></div>
<table></table>
<div></div>
这种格式不能获取最后一个 div 中的内容,主要原因是<table> 中的内容阻断了 perl 模块的解析
3.解决方法
在获取的页面的首位 添加 <html></html>
但是直接添加就会有 解析的问题
1.对于 ajax URL 的获取,可以通过火狐浏览器 按 F12 调试模式 中 控制台 查看
2.对于获取的数据 的格式
<div></div>
<table></table>
<div></div>
这种格式不能获取最后一个 div 中的内容,主要原因是<table> 中的内容阻断了 perl 模块的解析
3.解决方法
在获取的页面的首位 添加 <html></html>
但是直接添加就会有 解析的问题