python爬虫面试总结
2018-06-12 19:39
148 查看
1.爬虫有哪些模块?
答:
URL管理模块:维护已经爬取的URL集合和未爬取的URL集合,并提供获取新URL链接的接口
HTML下载模块:从URL管理器中获取未爬取的URL链接并下载HTML网页
HTML解析模块:从HTML下载器下载的网页内容解析出新的URL交给URL管理器,解析出有效数据给到数据存储器,常用lxml、xpath、re正则
数据存储模块:将HTML解析器解析出来的数据通过文件或数据库的形式存储起来
爬虫调度模块:负责统筹调度其他四个模块的协调工作
#以下问题以后更新
2.python常用的数据结构
3.什么是元组拆包
4.元组为什么不可变
5.你遇到的反爬手段
6.算法了解多少,写个排序算法
7.写个二分查找法
8.切片的使用
相关文章推荐
- Python爬虫工程师面试问题总结
- PYTHON 爬虫错误总结
- 七、PYTHON 一些基础面试题目总结
- python爬虫 使用真实浏览器打开网页的两种方法总结
- 转载-Python爬虫之模拟登录总结
- Python爬虫总结(一)入门
- python scrapy爬虫框架概念介绍(个人理解总结为一张图)
- python:网络爬虫入门经验总结大大大大全
- python爬虫学习第二周总结
- 【转帖】使用python爬虫抓站的一些技巧总结:进阶篇
- python爬虫抓网页的总结
- 爬虫总结(一)-- 爬虫基础 & python实现
- python-34:极视界爬虫总结
- 用python爬虫抓站的一些技巧总结
- python爬虫总结
- 第一个python网络爬虫总结
- 【Python爬虫学习笔记(2)】正则表达式(re模块)相关知识点总结
- python解决网站的反爬虫策略总结
- python 小爬虫的各种总结(一)
- 使用python爬虫抓站的一些技巧总结:进阶篇