码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
Python数据挖掘-词云
词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= ...
分类:编程语言   时间:2018-10-01 23:45:29    阅读次数:221
Python数据挖掘-词频统计-实现
词频:某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列,根据方括号里面的列的内容来进行统计; 第二个[]是要统计的列,在分组的列的基础上进行统计的列,可以是它自己本身 3、移除停用词,由于统计的词语很多是我们不需要的,所以需要移除 所用方法为isin ...
分类:编程语言   时间:2018-10-01 22:36:15    阅读次数:309
Python数据挖掘-中文分词
将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 ...
分类:编程语言   时间:2018-10-01 22:12:43    阅读次数:239
数据挖掘-语料库的构建
语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1、导入模块 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录,第二个是root文件下的子目 ...
分类:其他好文   时间:2018-10-01 21:05:15    阅读次数:213
数据挖掘——关键字提取—sklearn的实际应用
前面的步骤都相似 #构建语料库 #使用jieba包进行分词,并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块,可以将停用词以参数的形式传入CountVectorizer模块 得到numpy类的数据结构,需要进行转换 #将得到的TF-IDF结构转换成数组的形式,并 ...
分类:其他好文   时间:2018-09-26 01:15:20    阅读次数:227
word2vec 构建中文词向量
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻 ...
分类:其他好文   时间:2018-09-23 16:22:44    阅读次数:338
数据挖掘——文本挖掘
文本挖掘是将文本信息转化为可利用的数据的知识。 第一步:创建“语料库” 语料库(Corpus)是我们要分析的所有文档的集合。 实现逻辑: 将各文本文件分类放置在一个根目录下,通过读取根目录下所有子目录中的所有文件, 然后将读取结果赋值到一个数据框中,得到含有文件路径、文件内容的结果。 代码核心: 构 ...
分类:其他好文   时间:2018-09-11 23:50:44    阅读次数:220
word2vec 和 doc2vec 词向量表示
Word2Vec 词向量的稠密表达形式(无标签语料库训练) Word2vec中要到两个重要的模型,CBOW连续词袋模型和Skip-gram模型。两个模型都包含三层:输入层,投影层,输出层。 1.Skip-Gram神经网络模型(跳过一些词) skip-gram模型的输入是一个单词wI,它的输出是wI的 ...
分类:其他好文   时间:2018-09-06 23:06:01    阅读次数:315
transtoolweb: 帮助译者更快速、更准确翻译 (http://transtoolweb.tk)
transtoolweb:是一个精悍、实用的辅助翻译小工具。该工具提供了一些译者常用到的搜索功能,包括: 中英文同义词、近义词、反义词 中文同义词:哈工大同义词 中文近义词:基于深度学习技术和维基百科数据生成 英文同义词:Wordnet 词源:etymonline 微软+联合国双语语料库:秒搜300 ...
分类:Web程序   时间:2018-08-31 15:50:38    阅读次数:542
在PYTHON中使用TMTOOLKIT进行主题模型LDA评估
主题建模的英文一种在大量文档中查找抽象艺术主题艺术的方法。有了它,就有可能发现隐藏或“潜在”主题的混合,这些主题因给定语料库中的文档而异。一种作为监督无的机器学习方法,主题模型不容易评估,因为没有标记的“基础事实”数据可供比较。然而,由于主题建模通常需要预先定义一些参数(首先是要发现的主题?的数量) ...
分类:编程语言   时间:2018-08-28 20:11:14    阅读次数:252
191条   上一页 1 ... 5 6 7 8 9 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!