码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
Python数据挖掘-词云
词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= ...
分类:编程语言   时间:2018-10-01 23:45:29    阅读次数:221
The road to learning English-Reading
定位 SW:定位词的缩写(signal words) 1.unique /ju?'ni?k/ adj. 独特的{ 主题不能选 模板词 重复词(可能在一段) } 2.不可替换性原则(原词定位)概率80% 有定位词:分为A、B、C三类定位词 无定位词:用两大定位意识 有定位词{ A.特殊词定位优先(共8 ...
分类:其他好文   时间:2018-10-01 23:11:41    阅读次数:184
Python数据挖掘-中文分词
将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 ...
分类:编程语言   时间:2018-10-01 22:12:43    阅读次数:239
sorl的schema配置
solr的域要先定义后使用, 哪些数据需要导入? 分词器 1 分词器jar包复制 , cp IK\ Analyzer\ 2012FF_hf1/IKAnalyzer2012FF_u1.jar 中文分词器配置文件和字典 cp ext_stopword.dic IKAnalyzer.cfg.xml myd ...
分类:其他好文   时间:2018-09-30 14:42:43    阅读次数:169
Antd-Select组件的深入用法
一、Antd Select提供几种类型 1. 最基础版只提供下拉功能的选择器 2. 带搜索功能的下拉选择器 3. 可多选的下拉选择器 4. 可搜索、可多选、可随意输入内容的tag下拉选择器(支持自动分词) 5. 多级联动下拉选择器 6. 搜索远程数据下拉框 二、一些潜在用法 如果Select.Opt ...
分类:其他好文   时间:2018-09-29 22:45:05    阅读次数:639
中英文词频统计
步骤: 1.准备utf 8编码的文本文件file 2.通过文件读取字符串 str 3.对文本进行预处理 4.分解提取单词 list 5.单词计数字典 set , dict 6.按词频排序 list.sort(key=) 7.排除语法型词汇,代词、冠词、连词等无语义词 8.输出TOP(20) 英文词频 ...
分类:其他好文   时间:2018-09-29 10:19:57    阅读次数:191
English trip -- VC(情景课)8 C
MP review: 音标(Phonetic symbol) [?] lit adj. 照亮的,点着的(light的过去式及过去分词)n. (Lit)人名;(瑞典)利特;(老)李 [?] good put [?] up cut hunt [?] box fox [e] any bed [æ] cat ...
分类:其他好文   时间:2018-09-28 22:59:47    阅读次数:189
ElasticSearch搜索引擎安装配置中文分词器IK插件
一、IK简介 ElasticSearch(以下简称ES)默认的分词器是标准分词器Standard,如果直接使用在处理中文内容的搜索时,中文词语被分成了一个一个的汉字,因此引入中文分词器IK就能解决这个问题,同时用户可以配置自己的扩展字典、远程扩展字典等。 二、IK安装 1、首先前往GitHub下载安 ...
分类:其他好文   时间:2018-09-28 12:50:25    阅读次数:181
docker之es+es-head+kibana+ik分词器安装
一、es 第一步:搜索docker search elasticsearch第二步:下载镜像第三步:创建数据文件夹和配置文件宿主服务器创建文件夹mkdir -p /docker/es1/datavim /docker/es1/es.yml输入配置内容:http.host: 0.0.0.0#集群名称 ...
分类:其他好文   时间:2018-09-26 22:13:59    阅读次数:342
数据挖掘——关键字提取—sklearn的实际应用
前面的步骤都相似 #构建语料库 #使用jieba包进行分词,并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块,可以将停用词以参数的形式传入CountVectorizer模块 得到numpy类的数据结构,需要进行转换 #将得到的TF-IDF结构转换成数组的形式,并 ...
分类:其他好文   时间:2018-09-26 01:15:20    阅读次数:227
2158条   上一页 1 ... 60 61 62 63 64 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!