您的位置:首页 > 其它

elasticsearch-搜索引擎-系列介绍(1)

2015-05-17 17:16 411 查看
在网络爬虫、nlp群320349384中近期在讨论es(elasticsearch的简称)搜索相关的问题,近期就es搜索引擎写一系列应用介绍,下面进入正题。
一、es搜索的学习建议
现在很多开源软件均像es、ssdb、redis等均提供window、linux版的发布版。为初步学习方便和快捷,也利于调试,建议先采用windows版的去学习,然后再过滤到linux中去生产环节中去用,其代价是极低的,只要熟悉些linux shell就可以了。这种方式是很好的学习方式,个人也一直采用,效果甚佳。

二、es的基本介绍
共8大特点,

(1) cluster :分布式搜索的核心概念就是分布式搜索与存储,也就是集群的概念,在es中,内部有中心,外部无中心,也即是对用户透明。外部对任一节点通信等同,这点跟redis、mongodb等集群略有不同,相比而言,在并发性、负载均稀中就更加简单了。
(2)shards: 分片,等同于分布式存储,使存储的量更大。但前提是需要提前指定,且不可更改,默认是五个分片。
(3) replicas:与
hadoop的replicas等同,即副本个数,三个用处,一为恢复损坏数据或节点数据,二是提高查询效率,三是搜索请求与响应的负载均衡。

(4)recovery:指数据恢复与均衡,主要是在有节点退出、新加入时,有损失节点等同于节点退出。

(5)river :将数据同步至es搜索服务器索引的服务组件。

(6)gateway:索引存储的存储设置选择,是本地磁盘,hdfs、amazon的云服务等各种云存储提供来存储索引,供es进行索引备份与恢复、读取。

(7)discovery.zen:基于p2p通信的新节点发现,旧节点的移除发现等,即节点的新增或消失的发现,类似于hadoop的心跳服务。

( 8 ) Transport: es集群内部节点与客户端交互的核心组件类,支持tcp、http、thrift、各mq等的传输协议进行交互。

三、环境搭建

目前提供的版本默认都是采用jdk1.7及以上版本编译和发布的,所以在本地运行或测试请注意这点,若低于该版本则会报“jdk版本过滤”的异常信息。下载地址可直接在github上搞定,网址为:https://github.com/elasticsearch/elasticsearch

官方发布的es版本,是集成了window和linux版,只是对应不同的shell或是bat执行脚本。l

linux下直接运行elasticsearch该shell文件即可。

window下直接运行elasticsearch.bat即可。
出现类似于如下的截图



四、必备插件
es的插件开发是非常便捷人性化的,也涌现出很多优秀的辅助插件,其中head是最为人所认可的, 它可以方便的将es的索引数据可视化,包括字段信息、索引名称、索引类型、分片情况,以及实时查询的UI接口等。
安装方式也极为简单,可以选择本地或在线安装,个人建议线上安装即可,
其操作命令为:直接运行%ES_HOME%\bin\plugin -install mobz/elasticsearch-head,
安装成功后,直接浏览器查看:http://localhost:9200/_plugin/head/ 即可。看到如下类似界面:



作为开始,如上这些就差不多了,欢迎加入网络爬虫、nlp群320349384进一步学习与交流。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐