您的位置：首页 > Web前端 > HTML

Solr建立索引时，过滤HTML标签

2015-09-09 16:25 531 查看

原文地址 http://www.joyphper.net/article/201306/188.html

1、在数据库的读取文件data-config.xml 中的entity 标记里边添加 transformer=”HTMLStripTransformer” 代码。

<entity name="edusystem" pk="url" transformer="HTMLStripTransformer" query="SELECT description from table">

<field column="description" name="description" stripHTML="true"/>

</entity>

2、在field 字段需要过滤html代码的字段添加 stripHTML=”true”

<entity name="edusystem" pk="url" transformer="HTMLStripTransformer" query="SELECT description from table">

<field column="description" name="description" stripHTML="true"/>

</entity>

3、修改schema.xml文件中的fieldType标记中的内容，添加如下代码<charFilter class=”solr.HTMLStripCharFilterFactory” />

<analyzer type="query">

<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" reload="true" />

<filter class="solr.LowerCaseFilterFactory" />

<charFilter class="solr.HTMLStripCharFilterFactory" />

</analyzer>

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航