您的位置:首页 > Web前端 > JavaScript

python中 sgmllib 解析html时的问题(不能区分在javascript 的某些字符串)

2008-11-20 17:40 921 查看
最近在尝试使用 sgmllib 解析html,以 www.163.com作测试,发现总有不能正确解析的地方。

在网页中,javascript部分,有:
contemt+="<CENTER>";
var len=node.length;
for(var i=0;i<len ;i++)
{
var c=node[i].getAttribute("c");
var city=node[i].getAttribute("city");
var wd=node[i].getAttribute("wd");
var qx=node[i].getAttribute("qx");
var dry=node[i].getAttribute("lk");
var img=node[i].getAttribute("qximg");

if ((c==null || c=="") || (wd==null || wd=="") || (qx==null || qx=="") || (img==null || img=="")) return;

var imgs=img.split(",");
contemt+="<table cellpadding=0 cellspacing=0 border=0>";

contemt+="<tr><td style=/"text-align: left; padding-bottom: 2px;/">" + c + " " + wd+ "</td></tr>";
contemt+="<tr><td style=/"text-align: left; padding-bottom: 2px;/">今日 ";
if(img!=''&& img.length>0){
if(imgs.length > 0){
contemt+="<img width=/"15/" height=/"15/" border=/"0/" align=/"absmiddle/" alt=/"" + wd + "/" src=/"http://img1.cache.netease.com/cnews/img/weatherlogo/" + imgs[0] +"/"/> ";
}
}
contemt+=qx;
contemt+="</td></tr>";

contemt+="<tr><td style=/"text-align: left;/"><img src=/"http://images4.cache.netease.com/yodaoimages/pack.r081028/fire.gif/" width=/"15/" height=/"15/" border=/"0/" align=/"absmiddle/"/>干燥度:" + getDryness(dry) +"</td></tr>";

contemt+="</table>";
这里 就不能正确解析 第一行的代码中的 "<CENTER>",即其不能正确解析包含在javascript中的某些类似 <xxx> 标示的字符串。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: