您的位置:首页 > 编程语言 > Java开发

爬取带ajax的网页信息,需要将java script里的内容解析成json的格式

2012-08-26 13:18 489 查看
#-*-coding:utf-8 -*-

import httplib2

import re

import sys

import json

from bs4 import BeautifulSoup

import urllib2

h = httplib2.Http()

url = "http://verified.weibo.com/fame/licaizhuanjia/?rt=0&srt=4&letter=l"

resp,content = h.request(url)

pattern = re.compile('<script>STK && STK.pageletM && STK.pageletM.view\((.*?)\)<\/script>')

result = pattern.findall(content)

jsonResult = json.loads(result[3])

soup = BeautifulSoup(jsonResult['html'])

print soup

resultes = soup('div','select_user')

print resultes
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: