Solr4：加入中文分词IKAnalyzer2012 FF-白红宇

Solr4：加入中文分词IKAnalyzer2012 FF

阅读量：7246 次

发布时间：2019-06-29

本文共 1223 字，大约阅读时间需要 4 分钟。

前提是已经在Tomcat7下面配置好Solr4.0，详情参考：

注意：Solr4.0需要IKanalyzer 2012 FF以上版本。

1.下载IKAnalyzer包
下载地址：

2.解压IK Analyzer 2012FF_hf1.zip包
用到其中三个文件：

IKAnalyzer2012FF_u1.jar，放到$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下

IKAnalyzer.cfg.xml,stopword.dic，放到$CATALINA_HOME/webapps/solr/WEB-INF/classes/目录下

3.设置IKAnalyzer中文分词
修改$SOLR_HOME/collection1/conf/schema.xml文件，在<types></types>中增加如下内容:

查询采用IK自己的最大分词法，索引则采用它的细粒度分词法，各自配置了isMaxWordLength属性。

修改$SOLR_HOME/collection1/conf/schema.xml文件，在<fields></fields>中修改如下内容:


       
       ......

也可以自己增加删除相关字段。

4.重建索引，查询即可
具体过程参考上一篇文章。或者是通过，然后在Analyse Fieldname / FieldType:下拉选择框中选择"text_ik"，关闭Verbose Output核选框，在Field Value (Index)与Field Value (Query)中输入中文句子，点击"Analyse Values"即可以看到分词结果。

顺便也贴下SmartChineseAnalyzer的配置

1.拷贝~/solr/contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-4.0.0.jar到$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下

2.拷贝上述包中的stopwords.txt到$SOLR_HOME/collection1/conf/lang/stopwords_zh-cn.txt

3.修改$SOLR_HOME/collection1/conf/schema.xml文件，在<type></types>中增加如下内容:

4.其它省略

也可以比较IKAnalyzer与Lucene自带的SmartChineseSentenceTokenizerFactory的差别，可以通过中选择不同的分词器来查看。

转载地址：http://srjbm.baihongyu.com/

你可能感兴趣的文章