一、如何定义一个单词 在统计一句话有多少个单词的时候,首要问题是如何定义一个单词,通常有三种情况: 以上三种在不同任务下有不同的处理方法。 二、统计什么信息 在统计时,我们统计如下信息: 一般如下表示: corpora:语料库,也就是文本的数据集 N:token的数目 V:单词表,也就是type的集 ...
分类:
其他好文 时间:
2018-07-29 20:27:20
阅读次数:
184
IKAnalyzer中文分词器V2012_FF使用手册.pdf ...
分类:
其他好文 时间:
2018-07-27 22:21:18
阅读次数:
170
1.jieba的基本使用 1 import jieba 2 3 4 s1 = '我喜欢广州小蛮腰' 5 s2 = "我喜欢上海东方明珠" 6 #jieba,cut()#默认精准模式 7 print(10*'-','全模式',10*'-') 8 r1 = jieba.cut(s1,cut_all=Tr ...
分类:
其他好文 时间:
2018-07-27 14:46:26
阅读次数:
209
参考https://blog.csdn.net/zxm1306192988/article/details/78896319 以NLTK为基础配合讲解自然语言处理的原理 http://www.nltk.org/ Python上著名的自然语?处理库 自带语料库,词性分类库 自带分类,分词,等功能 强? ...
分类:
其他好文 时间:
2018-07-26 01:10:30
阅读次数:
246
1. 要求 环境: Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本 实现功能: 1).给定输入文本,获取中文拆分词结果;2).给定输入文本,对该文本按一定规则进行权重打分;如:文本中包含指定关键词的频率越高,分值越高。 2. 实现代码 输出: 原文:亭 ...
分类:
Web程序 时间:
2018-07-24 17:59:49
阅读次数:
193
对文本搜索引擎的倒排索引(数据结构和算法)、评分系统、分词系统都清楚掌握之后,本人对数值索引和搜索一直有很大的兴趣,最近对Lucene对数值索引和范围搜索做了些学习,并将主要内容整理如下: 1. Lucene不直接支持数值(以及范围)的搜索,数值必须转换为字符(串); 2. Lucene搜索数值的初 ...
分类:
Web程序 时间:
2018-07-24 17:59:40
阅读次数:
206
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:
其他好文 时间:
2018-07-23 19:57:03
阅读次数:
182
import xlrd import jieba import sys import importlib import os #python内置的包,用于进行文件目录操作,我们将会用到os.listdir函数 import pickle #导入cPickle包并且取一个别名pickle #持久化类 ... ...
分类:
其他好文 时间:
2018-07-23 15:05:15
阅读次数:
238
本章重点介绍CentOS7 下部署Solr7 ,添加核心Core配置,Dataimport导入,中文分词的相关操作。 一、准备工作 演示环境是在虚拟机下安装的CentOS7、java JDK8、apache-tomcat-8.5.29。 在CentOS7 下安装jdk8以及tomcat8.5 的安装 ...
分类:
其他好文 时间:
2018-07-23 10:58:40
阅读次数:
262
最近研究seo和python如何结合,参考网上的一些资料,写的这个程序。 目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划 使用方法: 代码: ...
分类:
编程语言 时间:
2018-07-22 21:15:32
阅读次数:
175