搜索关键字：分词，搜索到2158个结果！码迷,mamicode.com！

Python数据挖掘-词云

词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计使用方法：os.path.join(path,name) #连接目录与文件名或目录结果为path/name import os import os.path import codecs filePaths=[] fileContents= ...

分类：编程语言时间：2018-10-01 23:45:29 阅读次数：221

The road to learning English-Reading

定位 SW：定位词的缩写（signal words） 1.unique /ju?'ni?k/ adj. 独特的{ 主题不能选模板词重复词（可能在一段） } 2.不可替换性原则（原词定位）概率80% 有定位词：分为A、B、C三类定位词无定位词：用两大定位意识有定位词{ A.特殊词定位优先（共8 ...

分类：其他好文时间：2018-10-01 23:11:41 阅读次数：184

Python数据挖掘-中文分词

将一个汉字序列切分成一个一个单独的词安装分词模块： pip install jieba 分词在特殊场合的实用性，调用add_word()，把我们要添加的分词加入jieba词库高效方法：将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章使用数据框的遍历方法，得到语料 ...

分类：编程语言时间：2018-10-01 22:12:43 阅读次数：239

sorl的schema配置

solr的域要先定义后使用，哪些数据需要导入？分词器 1 分词器jar包复制， cp IK\ Analyzer\ 2012FF_hf1/IKAnalyzer2012FF_u1.jar 中文分词器配置文件和字典 cp ext_stopword.dic IKAnalyzer.cfg.xml myd ...

分类：其他好文时间：2018-09-30 14:42:43 阅读次数：169

Antd-Select组件的深入用法

一、Antd Select提供几种类型 1. 最基础版只提供下拉功能的选择器 2. 带搜索功能的下拉选择器 3. 可多选的下拉选择器 4. 可搜索、可多选、可随意输入内容的tag下拉选择器(支持自动分词) 5. 多级联动下拉选择器 6. 搜索远程数据下拉框二、一些潜在用法如果Select.Opt ...

分类：其他好文时间：2018-09-29 22:45:05 阅读次数：639

中英文词频统计

步骤： 1.准备utf 8编码的文本文件file 2.通过文件读取字符串 str 3.对文本进行预处理 4.分解提取单词 list 5.单词计数字典 set , dict 6.按词频排序 list.sort(key=) 7.排除语法型词汇，代词、冠词、连词等无语义词 8.输出TOP(20) 英文词频 ...

分类：其他好文时间：2018-09-29 10:19:57 阅读次数：191

English trip -- VC(情景课)8 C

MP review：音标(Phonetic symbol) [?] lit adj. 照亮的，点着的（light的过去式及过去分词）n. (Lit)人名；(瑞典)利特；(老)李 [?] good put [?] up cut hunt [?] box fox [e] any bed [æ] cat ...

分类：其他好文时间：2018-09-28 22:59:47 阅读次数：189

ElasticSearch搜索引擎安装配置中文分词器IK插件

一、IK简介 ElasticSearch（以下简称ES）默认的分词器是标准分词器Standard，如果直接使用在处理中文内容的搜索时，中文词语被分成了一个一个的汉字，因此引入中文分词器IK就能解决这个问题，同时用户可以配置自己的扩展字典、远程扩展字典等。二、IK安装 1、首先前往GitHub下载安 ...

分类：其他好文时间：2018-09-28 12:50:25 阅读次数：181

docker之es+es-head+kibana+ik分词器安装

一、es 第一步：搜索docker search elasticsearch第二步：下载镜像第三步：创建数据文件夹和配置文件宿主服务器创建文件夹mkdir -p /docker/es1/datavim /docker/es1/es.yml输入配置内容：http.host: 0.0.0.0#集群名称 ...

分类：其他好文时间：2018-09-26 22:13:59 阅读次数：342

数据挖掘——关键字提取—sklearn的实际应用

前面的步骤都相似 #构建语料库 #使用jieba包进行分词，并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块，可以将停用词以参数的形式传入CountVectorizer模块得到numpy类的数据结构，需要进行转换 #将得到的TF-IDF结构转换成数组的形式，并 ...

分类：其他好文时间：2018-09-26 01:15:20 阅读次数：227

共2158条上一页 1 ... 60 61 62 63 64 ... 216 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)