如何用爬虫+词云技术甄别“防脱洗发水”?
2019-12-03 18:32
393 查看
import pandas as pd
from selenium import webdriver
import random
import os
import time
driver = webdriver.PhantomJS()
def get_page(driver):
result = pd.DataFrame()
for i in driver.find_elements_by_xpath('//div[@class = "rate-grid"]/table/tbody/tr'):
try:
content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-content"]').text
#评价日期
date = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-date"]').text
#购买产品
sku = i.find_element_by_xpath('td[@class = "col-meta"]/div[@class = "rate-sku"]').text
#用户名
username = i.find_element_by_xpath('td[@class = "col-author"]/div[@class = "rate-user-info"]').text
append_time = None
append_content = None
except:
content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-premiere"]/div[@class = "tm-rate-content"]').text
#评价日期
date = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-premiere"]/div[@class = "tm-rate-tag"]/div[@class = "tm-rate-date"]').text
#购买产品
sku = i.find_element_by_xpath('td[@class = "col-meta"]/div[@class = "rate-sku"]').text
#用户名
username = i.find_element_by_xpath('td[@class = "col-author"]/div[@class = "rate-user-info"]').text
append_time = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-append"]/div[1]').text
append_content = i.find_element_by_xpath('td[@class = "tm-col-master"]/div[@class = "tm-rate-append"]/div[2]').text
df = pd.DataFrame({'用户名':[username],'购买产品':[sku],'评价日期':[date],'初次评价内容':[content],
'追评时间':[append_time],'追评内容':[append_content]})
result = pd.concat([result,df])
return result,driver
情感分析
from snownlp import SnowNLP
sens = []
for text in final_re['初评内容']:
s = SnowNLP(text)
sens.append(s.sentiments)
#final_re是评价数据源
final_re['初评情感评分'] = sens
肉眼检索评价
今天的活动,看看送啥?
给大家推荐10个程序员专属免费电子书下载网站
扫码加她0门槛获取
相关文章推荐
- 做技术做软件-----如何才能拿到上万的月薪
- (转)如何快速掌握一门技术
- 如何在Asp.Net1.1中实现页面模板(所谓的MasterPage技术)
- 如何运行容器?- 每天5分钟玩转 Docker 容器技术(22)
- 不是技术牛人,如何拿到国内IT巨头的Offer?
- 技术总监谈好的程序员如何写代码
- Docker 组件如何协作?- 每天5分钟玩转容器技术(8)
- 如何预测用户query意图 « 搜索技术博客-淘宝
- 2017双11技术揭秘—千亿级流量来袭,如何用硬件加速技术为CPU减负?
- 昨日关注:Community Server技术分析——CS是如何将三个项目整合到一起的
- 我是如何为技术博客设计一个推荐系统(上):统计与评分加权
- 技术分享:如何用Python和PyInstaller编写Windows恶意代码
- 如何使用技术与为什么使用技术,哪个更重要?
- 如何正确的使用Java序列化技术-
- 如何学习一项新的IT技术
- 机器学习如何应用于使用自然语言处理技术的企业模型介绍
- 给华育国际的学员分讲了一堂课:如何做技术
- 如何成为一位卓越的技术经理?
- 区块链背景下,传统媒体如何深度拥抱区块链技术?
- 易创索讯-网站seo优化,如何做好网站优化技术更新