您的位置:首页 > 理论基础 > 计算机网络

WS00-网络爬虫课程内容导学

2020-08-25 20:43 344 查看

前言

20年的疫情,遇上考研调剂,各种不确定性,搞得自己很烦躁,那个时候就想着找个事情做一做。朋友圈太多的Python广告,不得不走进Python折腾一番,当时过了一遍,但是,最近感觉学了之后没有将其应用到生活当中去,就决心整理下笔记,达到巩固目的。

本文是基于Python网络爬虫与信息提取(MOOC)学习所得,一起进步

The Website is The API …

Requests

  • 自动爬取HTML页面
  • 自动网络请求提示

robots.txt

  • 网络爬虫排除标准

Beautiful Soup

  • 解析HTML页面

Re

  • 正则表达式详解
  • 提取页面关键信息

projects

  • 实战项目A/B

Scrapy*

  • 网络爬虫原理介绍
  • 专业爬虫框架介绍

本系列笔记有的实例(学习完附链接)

  • 京东商品页面的爬取
  • 亚马逊商品页面的爬取
  • 百度/360搜索关键字提交
  • 网络图片的爬取和存储
  • I P地址归属地的自动查询
  • 中国大学排名定向爬虫
  • 淘宝商品比价定向爬虫
  • 股票数据定向爬虫
  • 股票数据专业爬虫
  • 表情包专业爬虫

Python语言开发工具(IDE)

选择一个适合自己的工具,表格中的黑体是本课程使用的工具

文本工具类IDE 集成工具类IDE
IDLE PyCharm
Notepad++ Wing
Sublime Text PyDev & Eclipse
Vim & Emacs Visual Studio
Atom Anaconda & Spyder
Komodo Edit Canopy

IDLE

  • 分为交互式和文件式
  • 适用于Python入门
  • 功能简单直接
  • 300+代码以内

Sublime Text

  • 专门为程序员开发的第三方专用编程工具
  • 专业编程体验
  • 多种编程风格
  • 工具非注册免费试用

Wing

  • 公司维护,工具收费
  • 调试功能丰富
  • 版本控制,版本同步
  • 适合多人共同开发
    Visual Studio & PTVS
    PTVS
  • 微软公司维护
  • win环境为主
  • 调试功能丰富

Eclipse

pyDev
  • 开源IDE开发工具
  • 早年是为Java程序员开发的,需要用户自定义,因此使用者需要具有一定的开发经验

PyCharm

  • 社区版免费
  • 简单,集成度高
  • 适合较复杂工程

科学计算 和数据分析

Canopy

  • 公司维护,工具收费
  • 支持近500个第三方库
  • 适合科学计算领域应用开发

Anaconda

  • 开源免费
  • 支持近800个第三方库

后记

这是第一次尝试用Markdown格式写文章,感觉不错。以后就尝试这个了,但是有个疑问,要是毕业论文用这个写,能不能转成和别人一样的格式。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐