码迷,mamicode.com
首页 >  
搜索关键字:分词    ( 2158个结果
java 扫描输入
到目前为止,从文件或标准输入读取数据还是一件相当痛苦第事情,一般第解决之道就是读入一行文本,对其进行分词,然后使用Integer Double 等类第各种解析方法来解析数据: //: strings/SimpleRead.java\package strings;import java.io.*; ...
分类:编程语言   时间:2019-01-29 00:37:08    阅读次数:213
使用TensorFlow进行中文自然语言处理的情感分析
1 TensorFlow使用 分析流程: 1.1 使用gensim加载预训练中文分词embedding 加载预训练词向量模型:https://github.com/Embedding/Chinese-Word-Vectors/ 查看词语的向量模型表示: 维度为300 词语相似度:向量余弦值 最相似的 ...
分类:编程语言   时间:2019-01-28 21:08:12    阅读次数:308
机器学习入门-文本数据-使用聚类增加文本的标签属性
通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 ...
分类:其他好文   时间:2019-01-27 00:20:37    阅读次数:362
机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 ...
分类:其他好文   时间:2019-01-26 19:32:16    阅读次数:1824
python学习 第十一个程序 汉语文本词频统计
# CalThreeKingdoms.pyimport jieba'''安装第三方库 中文分词jieba pip install jieba统计三国演义中出现次数最多的人'''txt = open("threekingdoms.txt", "rt", encoding="utf-8").read() ...
分类:编程语言   时间:2019-01-26 17:57:30    阅读次数:166
php简单分词,无需插件,无需复杂环境
使用dedecms的分词类及数据包 include中的splitword.class.php zip.class.php(此文件可以不用,需要注意如果不用的话,要去掉splitword中调用的地方)以及data目录 在splitword中定义 使用方式: ...
分类:Web程序   时间:2019-01-22 13:12:05    阅读次数:284
Elasticsearch入门
1、ES9300端口号与9200区别2、Elasticsearch倒排索引原理3、Elasticsearch高级查询4、ElasticsearchIK分词器原理5、ElasticsearchIK中文分词器6、IK自定义中文词典热词7、Elasticsearch Mapping映射 1.区别: 930 ...
分类:其他好文   时间:2019-01-21 01:10:28    阅读次数:161
02 NLTK 分句、分词、词干提取、词型还原
NLTK 分句、分词、词干提取、词型还原 ...
分类:其他好文   时间:2019-01-19 20:01:46    阅读次数:305
机器学习入门-提取文章的主题词 1.jieba.analyse.extract_tags(提取主题词)
1.jieba.analyse.extract_tags(text) text必须是一连串的字符串才可以 第一步:进行语料库的读取 第二步:进行分词操作 第三步:载入停用词,同时对分词后的语料库进行停用词的去除 第四步:选取一段文本分词列表,串接成字符串,使用jieba.analyse.extrac ...
分类:其他好文   时间:2019-01-19 00:45:32    阅读次数:3414
快速掌握分布式搜索引擎ElasticSearch(一)
前言 由于最近在项目中接触使用到了ElasticSearch,从本篇博客开始将给大家分享这款风靡全球的产品。将涉及到ElasticSearch的安装、基础概念、基本用法、高级查询、中文分词器、与SpringBoot集成进行接口开发等相关知识。 ElasticSearch简述 如果大家接触过大数据的话 ...
分类:其他好文   时间:2019-01-17 20:02:44    阅读次数:216
2158条   上一页 1 ... 50 51 52 53 54 ... 216 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!