您的位置:首页 > 职场人生

面试--百度网页搜索部一面总结

2013-07-02 15:44 253 查看

1.树的遍历

深度、广度、前中后序

2.linux

VIM:文本编辑器;

AWK:awk '{pattern + action}' 或者 awk 'pattern {action}';一种编程语言,因其模式匹配语法而特别有用,通常用于数据检索和数据转换;一行分成数段操作。

GREP:从结果中选取内容,cut;

sed:sed [options] 'command' file(s),sed [options] -f scriptfile file(s) ;整行操作。

3.项目

(1)内容抽取(文章抽取[起止标签]、自动摘要[替换标签<*>,取前500])

(2)索引(中文二级hash+英文set)

(3)简单的web内容(GET、POST、COOKIE、SESSION、AJAX、JAVASCRIPT、框架)

(4)网络协议(百度检索框中输入检索词百度一下至返回结果)

百度一下-->GET方法得到url-->DNS解析出百度服务器地址-->将检索词送达百度服务器-->检索词分词得到关键词-->查询关键词索引得到命中网页-->命中网页排个序,返回top10内容--->网页再自动加载些信息

(5)网页优先抓取(广度优先,插入排序,链接多的网站优先抓)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: