python中 sgmllib 解析html时的问题(不能区分在javascript 的某些字符串)
2008-11-20 17:40
921 查看
最近在尝试使用 sgmllib 解析html,以 www.163.com作测试,发现总有不能正确解析的地方。
在网页中,javascript部分,有:
contemt+="<CENTER>";
var len=node.length;
for(var i=0;i<len ;i++)
{
var c=node[i].getAttribute("c");
var city=node[i].getAttribute("city");
var wd=node[i].getAttribute("wd");
var qx=node[i].getAttribute("qx");
var dry=node[i].getAttribute("lk");
var img=node[i].getAttribute("qximg");
if ((c==null || c=="") || (wd==null || wd=="") || (qx==null || qx=="") || (img==null || img=="")) return;
var imgs=img.split(",");
contemt+="<table cellpadding=0 cellspacing=0 border=0>";
contemt+="<tr><td style=/"text-align: left; padding-bottom: 2px;/">" + c + " " + wd+ "</td></tr>";
contemt+="<tr><td style=/"text-align: left; padding-bottom: 2px;/">今日 ";
if(img!=''&& img.length>0){
if(imgs.length > 0){
contemt+="<img width=/"15/" height=/"15/" border=/"0/" align=/"absmiddle/" alt=/"" + wd + "/" src=/"http://img1.cache.netease.com/cnews/img/weatherlogo/" + imgs[0] +"/"/> ";
}
}
contemt+=qx;
contemt+="</td></tr>";
contemt+="<tr><td style=/"text-align: left;/"><img src=/"http://images4.cache.netease.com/yodaoimages/pack.r081028/fire.gif/" width=/"15/" height=/"15/" border=/"0/" align=/"absmiddle/"/>干燥度:" + getDryness(dry) +"</td></tr>";
contemt+="</table>";
这里 就不能正确解析 第一行的代码中的 "<CENTER>",即其不能正确解析包含在javascript中的某些类似 <xxx> 标示的字符串。
在网页中,javascript部分,有:
contemt+="<CENTER>";
var len=node.length;
for(var i=0;i<len ;i++)
{
var c=node[i].getAttribute("c");
var city=node[i].getAttribute("city");
var wd=node[i].getAttribute("wd");
var qx=node[i].getAttribute("qx");
var dry=node[i].getAttribute("lk");
var img=node[i].getAttribute("qximg");
if ((c==null || c=="") || (wd==null || wd=="") || (qx==null || qx=="") || (img==null || img=="")) return;
var imgs=img.split(",");
contemt+="<table cellpadding=0 cellspacing=0 border=0>";
contemt+="<tr><td style=/"text-align: left; padding-bottom: 2px;/">" + c + " " + wd+ "</td></tr>";
contemt+="<tr><td style=/"text-align: left; padding-bottom: 2px;/">今日 ";
if(img!=''&& img.length>0){
if(imgs.length > 0){
contemt+="<img width=/"15/" height=/"15/" border=/"0/" align=/"absmiddle/" alt=/"" + wd + "/" src=/"http://img1.cache.netease.com/cnews/img/weatherlogo/" + imgs[0] +"/"/> ";
}
}
contemt+=qx;
contemt+="</td></tr>";
contemt+="<tr><td style=/"text-align: left;/"><img src=/"http://images4.cache.netease.com/yodaoimages/pack.r081028/fire.gif/" width=/"15/" height=/"15/" border=/"0/" align=/"absmiddle/"/>干燥度:" + getDryness(dry) +"</td></tr>";
contemt+="</table>";
这里 就不能正确解析 第一行的代码中的 "<CENTER>",即其不能正确解析包含在javascript中的某些类似 <xxx> 标示的字符串。
相关文章推荐
- 从后台action传过来的字符串不能被解析html代码 解决办法和struts2 里escape="false"的问题
- python中html解析 HTMLParser与sgmllib
- JavaScript中一个字符串变量突然变成了false的问题解析
- SS vector - 利用浏览器HTML注释解析问题执行javascript(一)
- 使用v-html解决Vue.js渲染过程中html标签不能被解析(html标签显示为字符串)
- Python不能对字符解码的问题解析
- IE Bug 1 - 错误识别出现在javascript脚本中的字符串,导致HTML标签解析错误
- JavaScript 解析 Django Python 生成的 datetime 数据 时区问题解决
- 解决HTML表格连续超长英文字符串不能正确换行问题
- 使用v-html解决Vue.js渲染过程中html标签不能被解析(html标签显示为字符串)
- JavaScript中一个字符串变量突然变成了false的问题解析
- JavaScript 解析html页面中的URL字符串
- 【原创】解决jquery在ie中不能解析字符串类型xml结构的xml字符串的问题
- Html中插入javascript不识别问题
- 用v-html解决Vue.js渲染中html标签不被解析的问题
- 原生javascript实现解析XML文档与字符串
- Python解析Html的几种方法
- Python解析XML字符串
- 关于html和javascript在浏览器中的加载顺序问题的讨论
- python 解析HTML(附通过例子)