elasticsearch-搜索引擎-系列介绍(1)
2015-05-17 17:16
411 查看
在网络爬虫、nlp群320349384中近期在讨论es(elasticsearch的简称)搜索相关的问题,近期就es搜索引擎写一系列应用介绍,下面进入正题。
一、es搜索的学习建议
现在很多开源软件均像es、ssdb、redis等均提供window、linux版的发布版。为初步学习方便和快捷,也利于调试,建议先采用windows版的去学习,然后再过滤到linux中去生产环节中去用,其代价是极低的,只要熟悉些linux shell就可以了。这种方式是很好的学习方式,个人也一直采用,效果甚佳。
二、es的基本介绍
共8大特点,
(1) cluster :分布式搜索的核心概念就是分布式搜索与存储,也就是集群的概念,在es中,内部有中心,外部无中心,也即是对用户透明。外部对任一节点通信等同,这点跟redis、mongodb等集群略有不同,相比而言,在并发性、负载均稀中就更加简单了。
(2)shards: 分片,等同于分布式存储,使存储的量更大。但前提是需要提前指定,且不可更改,默认是五个分片。
(3) replicas:与
hadoop的replicas等同,即副本个数,三个用处,一为恢复损坏数据或节点数据,二是提高查询效率,三是搜索请求与响应的负载均衡。
(4)recovery:指数据恢复与均衡,主要是在有节点退出、新加入时,有损失节点等同于节点退出。
(5)river :将数据同步至es搜索服务器索引的服务组件。
(6)gateway:索引存储的存储设置选择,是本地磁盘,hdfs、amazon的云服务等各种云存储提供来存储索引,供es进行索引备份与恢复、读取。
(7)discovery.zen:基于p2p通信的新节点发现,旧节点的移除发现等,即节点的新增或消失的发现,类似于hadoop的心跳服务。
( 8 ) Transport: es集群内部节点与客户端交互的核心组件类,支持tcp、http、thrift、各mq等的传输协议进行交互。
三、环境搭建
目前提供的版本默认都是采用jdk1.7及以上版本编译和发布的,所以在本地运行或测试请注意这点,若低于该版本则会报“jdk版本过滤”的异常信息。下载地址可直接在github上搞定,网址为:https://github.com/elasticsearch/elasticsearch
官方发布的es版本,是集成了window和linux版,只是对应不同的shell或是bat执行脚本。l
linux下直接运行elasticsearch该shell文件即可。
window下直接运行elasticsearch.bat即可。
出现类似于如下的截图
四、必备插件
es的插件开发是非常便捷人性化的,也涌现出很多优秀的辅助插件,其中head是最为人所认可的, 它可以方便的将es的索引数据可视化,包括字段信息、索引名称、索引类型、分片情况,以及实时查询的UI接口等。
安装方式也极为简单,可以选择本地或在线安装,个人建议线上安装即可,
其操作命令为:直接运行%ES_HOME%\bin\plugin -install mobz/elasticsearch-head,
安装成功后,直接浏览器查看:http://localhost:9200/_plugin/head/ 即可。看到如下类似界面:
作为开始,如上这些就差不多了,欢迎加入网络爬虫、nlp群320349384进一步学习与交流。
一、es搜索的学习建议
现在很多开源软件均像es、ssdb、redis等均提供window、linux版的发布版。为初步学习方便和快捷,也利于调试,建议先采用windows版的去学习,然后再过滤到linux中去生产环节中去用,其代价是极低的,只要熟悉些linux shell就可以了。这种方式是很好的学习方式,个人也一直采用,效果甚佳。
二、es的基本介绍
共8大特点,
(1) cluster :分布式搜索的核心概念就是分布式搜索与存储,也就是集群的概念,在es中,内部有中心,外部无中心,也即是对用户透明。外部对任一节点通信等同,这点跟redis、mongodb等集群略有不同,相比而言,在并发性、负载均稀中就更加简单了。
(2)shards: 分片,等同于分布式存储,使存储的量更大。但前提是需要提前指定,且不可更改,默认是五个分片。
(3) replicas:与
hadoop的replicas等同,即副本个数,三个用处,一为恢复损坏数据或节点数据,二是提高查询效率,三是搜索请求与响应的负载均衡。
(4)recovery:指数据恢复与均衡,主要是在有节点退出、新加入时,有损失节点等同于节点退出。
(5)river :将数据同步至es搜索服务器索引的服务组件。
(6)gateway:索引存储的存储设置选择,是本地磁盘,hdfs、amazon的云服务等各种云存储提供来存储索引,供es进行索引备份与恢复、读取。
(7)discovery.zen:基于p2p通信的新节点发现,旧节点的移除发现等,即节点的新增或消失的发现,类似于hadoop的心跳服务。
( 8 ) Transport: es集群内部节点与客户端交互的核心组件类,支持tcp、http、thrift、各mq等的传输协议进行交互。
三、环境搭建
目前提供的版本默认都是采用jdk1.7及以上版本编译和发布的,所以在本地运行或测试请注意这点,若低于该版本则会报“jdk版本过滤”的异常信息。下载地址可直接在github上搞定,网址为:https://github.com/elasticsearch/elasticsearch
官方发布的es版本,是集成了window和linux版,只是对应不同的shell或是bat执行脚本。l
linux下直接运行elasticsearch该shell文件即可。
window下直接运行elasticsearch.bat即可。
出现类似于如下的截图
四、必备插件
es的插件开发是非常便捷人性化的,也涌现出很多优秀的辅助插件,其中head是最为人所认可的, 它可以方便的将es的索引数据可视化,包括字段信息、索引名称、索引类型、分片情况,以及实时查询的UI接口等。
安装方式也极为简单,可以选择本地或在线安装,个人建议线上安装即可,
其操作命令为:直接运行%ES_HOME%\bin\plugin -install mobz/elasticsearch-head,
安装成功后,直接浏览器查看:http://localhost:9200/_plugin/head/ 即可。看到如下类似界面:
作为开始,如上这些就差不多了,欢迎加入网络爬虫、nlp群320349384进一步学习与交流。
相关文章推荐
- 搜索引擎ElasticSearchV5.4.2系列一之ES介绍
- 搜索引擎ElasticSearch系列(一): ElasticSearch2.4.4环境搭建
- 30天了解30种技术系列---(10)面向Cloud的搜索引擎 ElasticSearch
- 搜索引擎之阿堂Solr学习笔记系列5(进阶篇:schema.xml的属性介绍)
- 搜索引擎ElasticSearch系列(三): ElasticSearch2.4.4 bigdesk插件安装
- 搜索引擎ElasticSearchV5.4.2系列三之ES使用
- Elasticsearch简单使用系列--详细介绍ES的核心概念
- 搜索引擎ElasticSearch系列(二): ElasticSearch2.4.4 Head插件安装
- elasticsearch系列五:搜索详解(查询建议介绍、Suggester 介绍)
- 搜索引擎ElasticSearchV5.4.2系列二之ElasticSearchV5.4.2+kibanaV5.4.2+x-packV5.4.2安装
- ElasticSearch系列之一:初识ES搜索引擎
- ElasticSearch系列之二:基本概念介绍
- 搜索引擎ElasticSearch系列(四): ElasticSearch2.4.4 sql插件安装
- Elasticsearch简单使用系列--详细介绍ES的核心概念
- ElasticSearch29:初识搜索引擎_分词器的内部组成到底是什么以及内置分词器的介绍
- elasticsearch核心知识--34.搜索引擎_分析器的内部组成到底是什么,以及内置分词器的介绍
- 第三百五十九节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装
- 搜索引擎ElasticSearch系列(五): ElasticSearch2.4.4 IK中文分词器插件安装
- Elasticsearch学习系列之介绍安装
- elasticsearch介绍之安装(一)