您的位置:首页 > 理论基础 > 计算机网络

什么是网络爬虫?网络爬虫如何工作? | Linux 中国

2018-02-20 00:00 966 查看

作为一个狂热的互联网人,你在生活中一定遇到过网络爬虫(Web Crawler)这个词。那么什么是网络爬虫,谁使用网络爬虫?它是如何工作的?让我们在本文中讨论这些。-- Rishabh Kandari
本文导航◈ 什么是网络爬虫?09%◈ 谁使用网络爬虫?26%◈ 网络爬虫如何工作?48%◈ 网络爬虫和 SEO60%◈ robots.txt73%◈ 总结82%编译自 | http://www.theitstuff.com/web-crawler-web-crawlers-work 
 作者 | Rishabh Kandari
 译者 | geekpi作为一个狂热的互联网人,你在生活中一定遇到过网络爬虫Web Crawler这个词。那么什么是网络爬虫,谁使用网络爬虫?它是如何工作的?让我们在本文中讨论这些。什么是网络爬虫?

web crawler source code sync网络爬虫Web Crawler也被称为网络蜘蛛web-spider是一个在互联网中访问不同网站的各个页面的互联网软件或者机器人。网络爬虫从这些网页中检索各种信息并将其存储在其记录中。这些抓取工具主要用于从网站收集内容以改善搜索引擎的搜索。谁使用网络爬虫?大多数搜索引擎使用爬虫来收集来自公共网站的越来越多的内容,以便它们可以向用户提供更多相关内容。

search engines use web crawlers许多商业机构使用网络爬虫专门搜索人们的电子邮件地址和电话号码,以便他们可以向你发送促销优惠和其他方案。这基本上是垃圾邮件,但这是大多数公司创建邮件列表的方式。黑客使用网络爬虫来查找网站文件夹中的所有文件,主要是 HTML 和 Javascript。然后他们尝试通过使用 XSS 来攻击网站。网络爬虫如何工作?网络爬虫是一个自动化脚本,它所有行为都是预定义的。爬虫首先从要访问的 URL 的初始列表开始,这些 URL 称为种子。然后它从初始的种子页面确定所有其他页面的超链接。网络爬虫然后将这些网页以 HTML 文档的形式保存,这些 HTML 文档稍后由搜索引擎处理并创建一个索引。网络爬虫和 SEO网络爬虫对 SEO,也就是搜索引擎优化Search Engine Optimization有很大的影响。由于许多用户使用 Google,让 Google 爬虫为你的大部分网站建立索引非常重要。这可以通过许多方式来完成,包括不使用重复的内容,并在其他网站上具有尽可能多的反向链接。许多网站被认为是滥用这些技巧,最终被引擎列入黑名单。robots.txt
robots.txt
 是爬虫在抓取你的网站时寻找的一种非常特殊的文件。该文件通常包含有关如何抓取你的网站的信息。一些网站管理员故意不希望他们的网站被索引也可以通过使用 
robots.txt
 文件阻止爬虫。总结爬虫是一个小的软件机器人,可以用来浏览很多网站,并帮助搜索引擎从网上获得最相关的数据。via: http://www.theitstuff.com/web-crawler-web-crawlers-work作者:Rishabh Kandari[2] 译者:geekpi 校对:wxy本文由 LCTT 原创编译,Linux中国 荣誉推出LCTT 译者

geekpi ? ?共计翻译:654 篇贡献时间:1569 天
推荐文章< 左右滑动查看相关文章 >









点击图片、输入文章 ID 或识别二维码直达

原文链接请访问“原文链接”获得可点击的文内链接、全尺寸原图和相关文章。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: