博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Solr4:加入中文分词IKAnalyzer2012 FF
阅读量:7246 次
发布时间:2019-06-29

本文共 1223 字,大约阅读时间需要 4 分钟。

前提是已经在Tomcat7下面配置好Solr4.0,详情参考:

注意:Solr4.0需要IKanalyzer 2012 FF以上版本。

1.下载IKAnalyzer包
下载地址:
2.解压IK Analyzer 2012FF_hf1.zip包
用到其中三个文件:
IKAnalyzer2012FF_u1.jar,放到$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
IKAnalyzer.cfg.xml,stopword.dic,放到$CATALINA_HOME/webapps/solr/WEB-INF/classes/目录下
3.设置IKAnalyzer中文分词
修改$SOLR_HOME/collection1/conf/schema.xml文件,在<types></types>中增加如下内容:

查询采用IK自己的最大分词法,索引则采用它的细粒度分词法,各自配置了isMaxWordLength属性。

修改$SOLR_HOME/collection1/conf/schema.xml文件,在<fields></fields>中修改如下内容:

......

也可以自己增加删除相关字段。

4.重建索引,查询即可
具体过程参考上一篇文章。或者是通过,然后在Analyse Fieldname / FieldType:下拉选择框中选择"text_ik",关闭Verbose Output核选框,在Field Value (Index)Field Value (Query)中输入中文句子,点击"Analyse Values"即可以看到分词结果。

 

顺便也贴下SmartChineseAnalyzer的配置

1.拷贝~/solr/contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-4.0.0.jar$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
2.拷贝上述包中的stopwords.txt$SOLR_HOME/collection1/conf/lang/stopwords_zh-cn.txt
3.修改$SOLR_HOME/collection1/conf/schema.xml文件,在<type></types>中增加如下内容:

4.其它省略

   
也可以比较IKAnalyzer与Lucene自带的SmartChineseSentenceTokenizerFactory的差别,可以通过中选择不同的分词器来查看。

转载地址:http://srjbm.baihongyu.com/

你可能感兴趣的文章
springMVC核心配置文件样例
查看>>
嵌入式第十次实验报告
查看>>
Python 图像格式转换
查看>>
C#_Queue实例
查看>>
洛谷P1880 石子合并
查看>>
最大公约数
查看>>
20151209jquery学习笔记Ajax 代码备份
查看>>
Zabbix设置item自定义监控项
查看>>
《python核心编程》--读书笔记 第21章 数据库编程
查看>>
使用nginx+lua脚本读写redis缓存
查看>>
windows server 2008 R2 X64 配置 ASP环境
查看>>
lambda表达式和闭包
查看>>
查询索引
查看>>
用户名片
查看>>
Logstash导入数据到ElasticSearch
查看>>
vue一些基础知识
查看>>
百度编辑器editor的使用
查看>>
js 预编译 解释执行 作用域链 闭包
查看>>
Django-CSRF的使用
查看>>
Python数据库连接池DBUtils(基于pymysql模块连接数据库)
查看>>