BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: ...
分类:
其他好文 时间:
2016-06-23 12:38:16
阅读次数:
160
前言 用过Lucene.net的都知道,我们自己搭建索引服务器时和解决搜索匹配度的问题都用到过盘古分词。其中包含一个词典。 那么既然用到了这种国际化的框架,那么就避免不了中文分词。尤其是国内特殊行业比较多。比如油田系统从勘探、打井、投产等若干环节都涉及一些专业词汇。 再像电商,手机、手机配件、笔记本 ...
分类:
其他好文 时间:
2016-06-21 19:09:50
阅读次数:
224
Ansj分词
这是一个基于n-Gram+条件随机场模型的中文分词的java实现.
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上
目前实现了.中文分词. 中文姓名识别 . 用户自定义词典
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
源码:https://github.com/NLPchina/ansj_seg...
分类:
其他好文 时间:
2016-06-21 07:34:12
阅读次数:
897
集团的内部通讯工具搜同事时,需要根据姓名后缀进行搜索。譬如“徐欢春”,我们要能根据“欢春”搜出这个人;“黄继刚”,要根据“继刚”为关键字搜出“黄继刚”。这是个很人性化的用户体验,当我们有同事的名字是三个字的时候,我们通常会叫他们名字的最后两个字。Lucene本身并没有提供这种分词器,只能自己照着Lucene已有的分词器进行模仿开发。 参照ngram分词器进行开发。 实现一个Tokeni...
分类:
Web程序 时间:
2016-06-20 12:55:01
阅读次数:
261
改关静留的作业中我还得改英文摘要。于是有个地方用了ing。顺便查了一下。 http://www.yygrammar.com/Article/201408/3677.html -ing分词用作状语时有九种作用——表示时间、原因、条件、让步、方式、伴随、目的、程度和结果。如: 用法一:表示时间 Putt ...
分类:
其他好文 时间:
2016-06-20 12:32:38
阅读次数:
226
使用python计算分词结果的准确率,召回率和F值 测试文件output.txt格式如下: python代码如下: 1、读入output.txt文件,并建立相应的列名为'character','train','test'的dataframe 【注:使用df.loc添加新行的速度太慢,因而使用列表向d ...
分类:
编程语言 时间:
2016-06-19 14:15:42
阅读次数:
2867
Solr中默认的中文分词是用Lucene的一元分词包。 现在说明在Solr5.0中配置Lucene的SmartCN中文分词包。 1,进入Solr的安装目录,我这里是:/root/nutch/solr-5.0.0 把contrib/analysis-extras/lucene-libs/lucene- ...
分类:
其他好文 时间:
2016-06-17 21:02:40
阅读次数:
168
算法原文位于:http://technology.chtsai.org/mmseg/ http://www.360doc.com/content/13/0217/15/11619026_266142832.shtml ...
分类:
编程语言 时间:
2016-06-17 16:55:16
阅读次数:
134
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法
定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配
按照长度的不同:最大匹配和最小匹配
1.1正向最大匹配思想MM
从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。
查找大机器词...
分类:
其他好文 时间:
2016-06-17 12:56:42
阅读次数:
239
Sphinx是一个基于SQL的全文检索引擎;普遍使用于很多网站;但由于中英文的差异,其本身,对中文的支持并不好。主要体现在对一段话断词;英文只需按照空格对其分词即可;但对于博大精深的中文来说,却是件困难的事情。 分词在两个地方会用到;1、索引时,根据分词索引原始数据2、搜索时,对用户输入分词,到索引 ...
分类:
其他好文 时间:
2016-06-09 21:02:45
阅读次数:
276