面试—html语义化,SEO的原理,什么是爬虫、怎么去写一个爬虫
html语义化:
根据内容的结构化(内容语义化),选择合适的标签(代码语义化)便于开发者阅读和写出更优雅的代码的同时让浏览器的爬虫和机器很好地解析。
(1)当元素去掉或者丢失样式的时候能够让页面呈现出清晰的结构
(2)有利于SEO(搜索引擎优化),语义化标签可以和搜索引擎建立良好沟通,有助于爬虫抓
(3)取更多的有效信息——爬虫依赖于标签来确定上下文和各个关键字的权重
(4)方便其他设备解析(如屏幕阅读器、盲人阅读器、移动设备)以意义的方式来渲染网页
(5)便于团队开发和维护,语义化更具可读性,遵循W3C标准的团队都遵循这个标准,可以减少差异化
SEO的原理
SEO是Search Engine Optimization的简称,SEO中文意思是搜索引擎优化
搜索引擎优化SEO是建立在用户搜索体验为中心的基础上,通过提高网页级别、建立合理的网站链接结构/目录结构、丰富网站内容及表达形式,使网站自身设计符合搜索引擎规则、对搜索引擎友好,进而在搜索引擎上获得较高的排序权重.
它是通过研究搜索引擎对网页的抓取规则,以及搜索结果排序算法,来对网页进行相关的优化,使其更多的内容被搜索引擎收录,同时针对关键词获得搜索结果中更高的排名,从而提高网站访问量的一种策略。
搜索引擎工作主要分为:
1.页面抓取
2.页面分析
3.建立索引
4.页面排序
site语法是检查一个网站收录数的最基本搜索语法
爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
怎么去写一个爬虫
—定义已访问队列,待访问队列和爬取得URL的哈希表,包括出队列,入队列,判断队列是否空等操作
—定义DownLoadFile类,根据得到的url,爬取网页内容,下载到本地保存。此处需要引用commons-httpclient.jar,commons-codec.jar,commons-logging.jar。
—定义HtmlParserTool类,用来获得网页中的超链接(包括a标签,frame中的src等等),即为了得到子节点的URL。需要引入htmlparser.jar
—编写测试类MyCrawler,用来测试爬取效果
阅读更多- html语义化,SEO的原理,什么是爬虫、怎么去写一个爬虫
- php能干什么? 怎么干的? 作为一个进程,还是怎么回事?如何处理HTML和javascript?
- Web前端面试指导(十八):用纯CSS创建一个三角形的原理是什么?
- 我想用asp编写一个网站,我现在才刚开始学C#和SQL以及HTML。谁能详细地告诉我为了组建一个网站,它们之间到底有什么联系?是怎么联系的?比如,怎么样就能用C#调取数据库,而HTML又是怎么和C#联
- Java简单爬虫系列(1)---什么是爬虫,爬虫原理,怎么来实现爬虫
- 语义化的HTML结构怎么理解
- 前些天面试,发现原来做一个找回密码的链接是这么难的,大家想一下url应该传递一些什么参数。
- 一个f12的最终html页面,是怎么加载出来的,过程如下
- 爱创课堂每日一题九十天- html语义化是什么?
- HTML语义化在搜索引擎优化(SEO)中的应用
- 一个前端面的试题-HTML结构语义化记录
- 一个架构师谈什么是架构以及怎么成为一个架构师
- 当你输入一个网址的时候,实际会发生什么?(赛门铁克电话面试我,曾经问过这个问题,最后一问,我只能说不知道)
- 怎么做一个有效的面试作品
- 人生是一个连续的过程,没什么东西能影响人的一生,怎么选择不是问题。问题是每天都要努力
- 面试-SizeOf一个对象会得到什么?
- 【MMAP】认真分析mmap:是什么 为什么 怎么用-sqlite实现原理
- 爬虫怎么根据一个关键词爬取上千张网络图片
- 一个架构师谈什么是架构以及怎么成为一个架构师
- 一个最简单的爬虫-HTML下载器