您的位置：首页 > 职场人生

面试—html语义化，SEO的原理，什么是爬虫、怎么去写一个爬虫

2018-08-07 10:41 260 查看

html语义化：

根据内容的结构化（内容语义化），选择合适的标签（代码语义化）便于开发者阅读和写出更优雅的代码的同时让浏览器的爬虫和机器很好地解析。

（1）当元素去掉或者丢失样式的时候能够让页面呈现出清晰的结构

（2）有利于SEO（搜索引擎优化），语义化标签可以和搜索引擎建立良好沟通，有助于爬虫抓

（3）取更多的有效信息——爬虫依赖于标签来确定上下文和各个关键字的权重

（4）方便其他设备解析（如屏幕阅读器、盲人阅读器、移动设备）以意义的方式来渲染网页

（5）便于团队开发和维护，语义化更具可读性，遵循W3C标准的团队都遵循这个标准，可以减少差异化

SEO的原理

SEO是Search Engine Optimization的简称,SEO中文意思是搜索引擎优化

搜索引擎优化SEO是建立在用户搜索体验为中心的基础上,通过提高网页级别、建立合理的网站链接结构/目录结构、丰富网站内容及表达形式,使网站自身设计符合搜索引擎规则、对搜索引擎友好,进而在搜索引擎上获得较高的排序权重.

它是通过研究搜索引擎对网页的抓取规则，以及搜索结果排序算法，来对网页进行相关的优化，使其更多的内容被搜索引擎收录，同时针对关键词获得搜索结果中更高的排名，从而提高网站访问量的一种策略。

搜索引擎工作主要分为：

1.页面抓取

2.页面分析

3.建立索引

4.页面排序

site语法是检查一个网站收录数的最基本搜索语法

爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

怎么去写一个爬虫

—定义已访问队列，待访问队列和爬取得URL的哈希表，包括出队列，入队列，判断队列是否空等操作

—定义DownLoadFile类，根据得到的url，爬取网页内容，下载到本地保存。此处需要引用commons-httpclient.jar，commons-codec.jar，commons-logging.jar。

—定义HtmlParserTool类，用来获得网页中的超链接（包括a标签，frame中的src等等），即为了得到子节点的URL。需要引入htmlparser.jar

—编写测试类MyCrawler，用来测试爬取效果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航