标签:效率 分词 引擎 搜索引擎 领域 利用 imp 3.1 全文索引
最近需要计算制造业领域大词表每个词的idf,词表里一共九十多万个词,语料一共三百七十多万篇分词后文献。最开始尝试用程序词表循环套语料循环得到每个词的idf,后来又尝试把语料存入mysql然后建立全文索引再循环用sql语句去查每个词的idf,效率都十分不理想。
最新的想法是利用solr搜索引擎的速度来做,所以首先要把mysql的数据导入solr。
未完
Solr-5.3.1 dataimport 导入mysql数据
标签:效率 分词 引擎 搜索引擎 领域 利用 imp 3.1 全文索引
原文地址:http://www.cnblogs.com/zhangtianyuan/p/6946456.html