Mapr搜索指南(一)——Mapr全文检索
2013-12-31 00:20
921 查看
在MAPR全文检索
您可以将LucidWorks搜索功能与运行MAPR分布的Hadoop无需使用专门的查询语法上的群集数据进行全文搜索的集群。存储在典型的MAPR集群非常大的数据集可以使他们具有挑战性的查询。MapReduce的工作需要编程知识来创建。Apache的钻头需要使用类似SQL的搜索语法。集成LucidWorks搜索功能与您的MAPR集群使您能够在集群中的任何索引的数据上任意的字符串进行快速搜索。
在MAPR全文检索
搜索概念
搜索用例
上MAPR安装LucidWorks
搜索概念
LucidWorks必须索引搜索之前在群集中的数据。搜索索引映射文件中找到这些文件的位置在集群中的话。建立一个搜索索引,您在群集中的LucidWorks在指定位置抓取。爬网程序是一种程序,连接到您的数据和检索您的文件进行索引。您可以为您的履带,影响哪些文件履带检索指定的规则。由爬虫检索的文档由LucidWorks被解析并添加到索引中。您可以定义集合为你的文件。集合由一组文件被查询和规则共享一套索引的。
在一个MAPR簇,搜索功能使用以下组件:
在动物园管理员服务的多个节点组成LucidWorks服务之间保持同步。
数据被存储在MAPR-FS层
该LucidWorks软件本身
您可以利用LucidWorks搜索功能与任何开源组件通常使用。
搜索用例
因为你的集群,该集群的搜索性能的硬件需求大幅依赖您的搜索使用的情况下,重要的是要在部署过程中及早考虑您的搜索用例的具体细节。先进的功能,如小面(文件由共同的特征的一组)可以增加你的内存要求取决于执行的小面的类型。影响群集的性能的因素包括:字段的字数
外国语言检索,包括支持的语系和字符集的数量
小面与面型
率传入的新数据,这会影响抓取并重新索引。
排序要求
并发用户数
上MAPR安装LucidWorks
本指南将引导您完成设置LucidWorks安装的抓取存储在MAPR集群数据源。
开始之前
在您安装LucidWorks搜索,创建本地卷的MAPR集群上。这些卷将存储您的搜索索引和其它LucidWorks元数据。发出以下命令,在那里你将要运行LucidWorks每个节点上:验证卷已成功地与下面的创建命令:
/ LWS命名空间。
安装
下载 LucidWorks。将下载的
lucidworks搜索- <VERSION>。的tar文件在一个合适的位置在你的MAPR集群NFS挂载。
图标
确保您从群集的MAPR-FS层,而不是Unix文件系统安装。
指定将要运行LucidWorks作为主节点的节点之一。这个节点将整个LucidWorks安装运行该服务的用户界面和连接器。
在主LucidWorks节点,安装LucidWorks用下面的命令:
当系统提示您运行LucidWorks搜索核心本地,输入1,然后指定主节点和8888端口的IP地址,格式为http:ip 地址:8888。
当系统提示您运行LucidWorks搜索本地连接,输入1,然后指定主节点和端口8765的IP地址,格式为http:ip 地址:8765。
当系统提示您运行LucidWorks搜索本地用户界面,输入1,然后指定主节点和端口8989的IP地址,格式为http:ip 地址:8989。
输入目标路径
/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch。
安装完成后,系统提示时自动启动LucidWorks输入0。
对方节点,你将运行LucidWorks,安装LucidWorks用下面的命令:
当系统提示您运行LucidWorks搜索核心本地,输入1,然后指定主节点和8888端口的IP地址,格式为IP 地址:8888。
当系统提示您运行LucidWorks搜索本地连接,输入0。
当系统提示您运行LucidWorks搜索本地用户界面,输入0。
输入目标路径
/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch。
安装完成后,系统提示时自动启动LucidWorks输入0。
您在安装步骤中指定的搜索核心节点,浏览到
/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch路径,然后启动自举模式LucidWorks使用下面的命令:
/ LWS字符串使用保留LucidWorks命名空间MAPR的ZooKeeper的。
搜索核心白手起家后,停止LucidWorks用下面的命令:
组态
安装完成后,打开浏览器,然后导航至IP地址:8989/admin,其中IP地址是主LucidWorks节点的IP地址。默认的登录名和密码为一个新的安装都是
管理员。登录您带来的仪表板:
点击用户右上方链接以显示用户界面。
在操作中,按一下旁边的齿轮管理员用户,并选择编辑 设置新的管理密码。保持这个新密码的安全。
(可选)单击+新用户按钮来设置新的用户。
图标
比其他授权级别用户管理员只能执行搜索,并没有进入到管理仪表板。
创建一个新的集合来保存你想索引的搜索数据。
从仪表板中,单击将接收存储在您的MAPR集群中的数据集合的名称。
单击 新数据源 并选择MAPR大批量从下拉。
根据LucidWorks填写表格文档,然后点击创建按钮显示为数据源的设置窗格。
点击开始抓取按钮来抓取你的MAPR集群中的数据。一旦抓取完成后,您就可以从LucidWorks搜索仪表盘的数据运行搜索。
调度周期性抓取
为了使您的搜索索引电流,安排您的MAPR数据源的重复抓取。您可以创建和编辑日程从LucidWorks控制台数据源的重复抓取。
相关文章推荐
- Elasticsearch概述、ES概念、什么是搜索、全文检索、Elasticsearch功能(来自网络+学习资料)
- 基于 Hibernate搜索的数据库全文检索系
- 全文检索工具lucene之基本搜索方法
- CoreSeek(全文检索引擎 Sphinx 中文版)安装使用指南(CentOS6.5)
- 搜索系统:全文检索(lucene、排序、多域搜索、高亮、分页、监听器)
- Rails程序员Sphinx中文全文检索安装指南
- Scintilla使用指南(2) - 全文检索和修改
- SQL Server 2008 Express 全文检索(全文搜索)
- 【Lucene】Apache Lucene全文检索引擎架构之搜索功能
- 全文检索引擎Solr 指南
- PostgreSQL 实时高效搜索 - 全文检索、模糊查询、正则查询、相似查询、ADHOC查询
- 分布式搜索 Lucene全文检索基本原理
- 使用Lucene进行全文检索(三)---进行搜索
- Apache Lucene全文检索引擎架构之搜索功能
- 全文检索(elasticsearch) 索引mapping的配置指南
- 让Dedecms自带搜索实现全文检索(支持标题与内容)
- 用C#+SQL2000做高级搜索(或全文检索)
- [搜索] Lucene全文检索的基本原理
- 全文检索Lucene(二)--特定项搜索与queryParser搜索
- 全文检索Lucene入门之创建索引及简单搜索