python爬虫--连接MongoDB 存数据
2017-10-17 18:52
393 查看
之前做爬虫 爬取贴吧松爱协会的内容是存在txt文件的 这个并不好 所以这一次存在Mongdb
这次是在windows 安在Mongodb里
官网下载
https://www.mongodb.com/download-center?jmp=nav#community
启动:
mongod.exe --logpath "c:\data\log\mongodb.log" --logappend --dbpath "c:\data\db" --serviceName "MongoDB" --install
net start MongoDB
存:
#coding=utf-8
import requests
import datetime
from bs4 import BeautifulSoup
from pymongo import MongoClient
import sys
import time
reload(sys)
sys.setdefaultencoding('utf-8')
client = MongoClient('localhost',27017)
db = client.zhengdai_database
collection = db.zhengai
link = "https://tieba.baidu.com/p/4877675324"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
r = requests.get(link,headers=headers)
soup = BeautifulSoup(r.text,"lxml")
content_list = soup.find_all("div",class_ = "d_post_content j_d_post_content ")
for i in range(len(content_list)):
conent = content_list[i].text.strip()
print ("诗集"+str(i+1)+":")
print (conent)
post = {
"id":i,
"content":conent,
"date":datetime.datetime.utcnow()#获取当前时间
}
collection.insert_one(post)
这次是在windows 安在Mongodb里
官网下载
https://www.mongodb.com/download-center?jmp=nav#community
启动:
mongod.exe --logpath "c:\data\log\mongodb.log" --logappend --dbpath "c:\data\db" --serviceName "MongoDB" --install
net start MongoDB
存:
#coding=utf-8
import requests
import datetime
from bs4 import BeautifulSoup
from pymongo import MongoClient
import sys
import time
reload(sys)
sys.setdefaultencoding('utf-8')
client = MongoClient('localhost',27017)
db = client.zhengdai_database
collection = db.zhengai
link = "https://tieba.baidu.com/p/4877675324"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
r = requests.get(link,headers=headers)
soup = BeautifulSoup(r.text,"lxml")
content_list = soup.find_all("div",class_ = "d_post_content j_d_post_content ")
for i in range(len(content_list)):
conent = content_list[i].text.strip()
print ("诗集"+str(i+1)+":")
print (conent)
post = {
"id":i,
"content":conent,
"date":datetime.datetime.utcnow()#获取当前时间
}
collection.insert_one(post)
相关文章推荐
- python连接mongodb操作数据示例(mongodb数据库配置类)
- python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
- python实现爬虫数据存到 MongoDB
- 2.python连接mongodb,利用微博数据制作云图
- Python爬虫数据存储MySQL【1】连接方式
- Python爬虫(入门+进阶)学习笔记 1-7 数据入库之MongoDB(案例二:爬取拉勾)
- python3 [爬虫入门实战]scrapy爬取盘多多五百万数据并存mongoDB
- python连接mongodb操作数据示例(mongodb数据库配置类)
- Python 爬虫7——自定义Item Pipeline将数据存入MongoDB
- Python连接mongodb提取部分字段内数据并写入txt文件
- python实现爬虫数据存到 MongoDB
- python3 爬虫日记(二) 将数据存到Mongodb
- Python爬虫入门实战八:数据储存——MongoDB与MySQL
- python3.x爬虫学习:股票数据定向爬虫笔记
- python3.x爬虫:爬取大学排名数据
- Python爬虫之爬取动态页面数据
- GreenPlum数据仓库快速配置,通过python连接
- Python爬虫爬取京东内存条数据并作简单分析
- Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 - 数客
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集