您的位置:首页 > 其它

Mapr搜索指南(一)——Mapr全文检索

2013-12-31 00:20 921 查看


在MAPR全文检索

您可以将LucidWorks搜索功能与运行MAPR分布的Hadoop无需使用专门的查询语法上的群集数据进行全文搜索的集群。
存储在典型的MAPR集群非常大的数据集可以使他们具有挑战性的查询。MapReduce的工作需要编程知识来创建。Apache的钻头需要使用类似SQL的搜索语法。集成LucidWorks搜索功能与您的MAPR集群使您能够在集群中的任何索引的数据上任意的字符串进行快速搜索。

在MAPR全文检索

搜索概念
搜索用例
上MAPR安装LucidWorks


搜索概念

LucidWorks必须索引搜索之前在群集中的数据。搜索索引映射文件中找到这些文件的位置在集群中的话。建立一个搜索索引,您在群集中的LucidWorks在指定位置抓取。爬网程序是一种程序,连接到您的数据和检索您的文件进行索引。您可以为您的履带,影响哪些文件履带检索指定的规则。由爬虫检索的文档由LucidWorks被解析并添加到索引中。
您可以定义集合为你的文件。集合由一组文件被查询和规则共享一套索引的。
在一个MAPR簇,搜索功能使用以下组件:

动物园管理员服务的多个节点组成LucidWorks服务之间保持同步。
数据被存储在MAPR-FS
LucidWorks软件本身

您可以利用LucidWorks搜索功能与任何开源组件通常使用。


搜索用例

因为你的集群,该集群的搜索性能的硬件需求大幅依赖您的搜索使用的情况下,重要的是要在部署过程中及早考虑您的搜索用例的具体细节。先进的功能,如小面(文件由共同的特征的一组)可以增加你的内存要求取决于执行的小面的类型。影响群集的性能的因素包括:

字段的字数
外国语言检索,包括支持的语系和字符集的数量
小面与面型
率传入的新数据,这会影响抓取并重新索引。
排序要求
并发用户数


上MAPR安装LucidWorks

本指南将引导您完成设置LucidWorks安装的抓取存储在MAPR集群数据源。


开始之前

在您安装LucidWorks搜索,创建本地的MAPR集群上。这些卷将存储您的搜索索引和其它LucidWorks元数据。发出以下命令,在那里你将要运行LucidWorks每个节点上:

此命令创建的每个节点为1的MAPR复制因子上的本地卷。LucidWorks已经提供了可以从LucidWorks仪表板控制复制。除了LucidWorks级别设置复制的MAPR水平将导致过度复制,造成不必要的性能损失。
验证卷已成功地与下面的创建命令

LucidWorks工作需要当地NFS挂载到为了写搜索索引和其它元数据到MAPR集群的MAPR-FS层。验证NFS挂载使用以下命令存在:

LucidWorks服务在默认情况下连接到端口8888,8989,和8765。验证这些端口是开放的。LucidWorks连接到MAPR集群的动物园管理员在端口5181,在
/ LWS
命名空间。


安装

下载 LucidWorks。

将下载的
lucidworks搜索- <VERSION>。的tar
文件在一个合适的位置在你的MAPR集群NFS挂载
图标

确保您从群集的MAPR-FS层,而不是Unix文件系统安装。

指定将要运行LucidWorks作为主节点的节点之一。这个节点将整个LucidWorks安装运行该服务的用户界面和连接器。

在主LucidWorks节点,安装LucidWorks用下面的命令:

按照剧本的方向在整个安装过程。

当系统提示您运行LucidWorks搜索核心本地,输入1,然后指定主节点和8888端口的IP地址,格式为http:ip 地址:8888
当系统提示您运行LucidWorks搜索本地连接,输入1,然后指定主节点和端口8765的IP地址,格式为http:ip 地址:8765
当系统提示您运行LucidWorks搜索本地用户界面,输入1,然后指定主节点和端口8989的IP地址,格式为http:ip 地址:8989
输入目标路径
/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch

安装完成后,系统提示时自动启动LucidWorks输入0。

对方节点,你将运行LucidWorks,安装LucidWorks用下面的命令:

按照剧本的方向在整个安装过程。

当系统提示您运行LucidWorks搜索核心本地,输入1,然后指定主节点和8888端口的IP地址,格式为IP 地址:8888
当系统提示您运行LucidWorks搜索本地连接,输入0。
当系统提示您运行LucidWorks搜索本地用户界面,输入0。
输入目标路径
/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch

安装完成后,系统提示时自动启动LucidWorks输入0。

您在安装步骤中指定的搜索核心节点,浏览到
/ MAPR / <clustername>的/ var / LWS /本地/ <HOSTNAME> / LucidWorks / LucidWorksSearch
路径,然后启动自举模式LucidWorks使用下面的命令:

用你的MAPR集群的动物园管理员节点的IP地址。一定要追加
/ LWS
字符串使用保留LucidWorks命名空间MAPR的ZooKeeper的。

搜索核心白手起家后,停止LucidWorks用下面的命令:

开始在所有节点上LucidWorks用下面的命令:


组态

安装完成后,打开浏览器,然后导航至
IP地址:8989/admin
,其中IP地址是主LucidWorks节点的IP地址。默认的登录名和密码为一个新的安装都是
管理员
。登录您带来的仪表板:



点击用户右上方链接以显示用户界面。
操作中,按一下旁边的齿轮管理员用户,并选择编辑 设置新的管理密码。保持这个新密码的安全。

(可选)单击+新用户按钮来设置新的用户。
图标

比其他授权级别用户管理员只能执行搜索,并没有进入到管理仪表板。

创建一个新的集合来保存你想索引的搜索数据。
从仪表板中,单击将接收存储在您的MAPR集群中的数据集合的名称。



单击 新数据源 并选择MAPR大批量从下拉。



根据LucidWorks填写表格文档,然后点击创建按钮显示为数据源的设置窗格。
点击开始抓取按钮来抓取你的MAPR集群中的数据。一旦抓取完成后,您就可以从LucidWorks搜索仪表盘的数据运行搜索。


调度周期性抓取

为了使您的搜索索引电流,安排您的MAPR数据源的重复抓取。您可以创建和编辑日程从LucidWorks控制台数据源的重复抓取。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: