您的位置：首页 > 理论基础 > 计算机网络

WS00-网络爬虫课程内容导学

2020-08-25 20:43 344 查看

前言

20年的疫情，遇上考研调剂，各种不确定性，搞得自己很烦躁，那个时候就想着找个事情做一做。朋友圈太多的Python广告，不得不走进Python折腾一番，当时过了一遍，但是，最近感觉学了之后没有将其应用到生活当中去，就决心整理下笔记，达到巩固目的。

本文是基于Python网络爬虫与信息提取（MOOC）学习所得，一起进步

The Website is The API …

Requests

自动爬取HTML页面
自动网络请求提示

robots.txt

网络爬虫排除标准

Beautiful Soup

解析HTML页面

Re

正则表达式详解
提取页面关键信息

projects

实战项目A/B

Scrapy*

网络爬虫原理介绍
专业爬虫框架介绍

本系列笔记有的实例（学习完附链接）

京东商品页面的爬取
亚马逊商品页面的爬取
百度/360搜索关键字提交
网络图片的爬取和存储
I P地址归属地的自动查询
中国大学排名定向爬虫
淘宝商品比价定向爬虫
股票数据定向爬虫
股票数据专业爬虫
表情包专业爬虫

Python语言开发工具（IDE）

选择一个适合自己的工具，表格中的黑体是本课程使用的工具

文本工具类IDE	集成工具类IDE
IDLE	PyCharm
Notepad++	Wing
Sublime Text	PyDev & Eclipse
Vim & Emacs	Visual Studio
Atom	Anaconda & Spyder
Komodo Edit	Canopy

IDLE

分为交互式和文件式
适用于Python入门
功能简单直接
300+代码以内

Sublime Text

专门为程序员开发的第三方专用编程工具
专业编程体验
多种编程风格
工具非注册免费试用

Wing

公司维护，工具收费
调试功能丰富
版本控制，版本同步
适合多人共同开发
Visual Studio & PTVS
PTVS
微软公司维护
win环境为主
调试功能丰富

Eclipse

pyDev

开源IDE开发工具
早年是为Java程序员开发的，需要用户自定义，因此使用者需要具有一定的开发经验

PyCharm

社区版免费
简单，集成度高
适合较复杂工程

科学计算和数据分析

Canopy

公司维护，工具收费
支持近500个第三方库
适合科学计算领域应用开发

Anaconda

开源免费
支持近800个第三方库

后记

这是第一次尝试用Markdown格式写文章，感觉不错。以后就尝试这个了，但是有个疑问，要是毕业论文用这个写，能不能转成和别人一样的格式。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航