搜索关键字：语料库，搜索到191个结果！码迷,mamicode.com！

Python数据挖掘-词云

词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计使用方法：os.path.join(path,name) #连接目录与文件名或目录结果为path/name import os import os.path import codecs filePaths=[] fileContents= ...

分类：编程语言时间：2018-10-01 23:45:29 阅读次数：221

Python数据挖掘-词频统计-实现

词频：某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列，根据方括号里面的列的内容来进行统计；第二个[]是要统计的列，在分组的列的基础上进行统计的列，可以是它自己本身 3、移除停用词，由于统计的词语很多是我们不需要的，所以需要移除所用方法为isin ...

分类：编程语言时间：2018-10-01 22:36:15 阅读次数：309

Python数据挖掘-中文分词

将一个汉字序列切分成一个一个单独的词安装分词模块： pip install jieba 分词在特殊场合的实用性，调用add_word()，把我们要添加的分词加入jieba词库高效方法：将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章使用数据框的遍历方法，得到语料 ...

分类：编程语言时间：2018-10-01 22:12:43 阅读次数：239

数据挖掘-语料库的构建

语料库：是我们要分析的所有文档的集合使用搜狗实验室提供的语料库，里面有一个classlist，里面内容是文件的编号及分类名称 1、导入模块使用os.walk传入这个目录作为参数，遍历该文件夹下的全部文件，该方法返回一个Truple的数组，第一个root是文件所在目录，第二个是root文件下的子目 ...

分类：其他好文时间：2018-10-01 21:05:15 阅读次数：213

数据挖掘——关键字提取—sklearn的实际应用

前面的步骤都相似 #构建语料库 #使用jieba包进行分词，并将分词结果用空格分隔后再传回分词列表 #导入sklearn包中计算TF-IDF的模块，可以将停用词以参数的形式传入CountVectorizer模块得到numpy类的数据结构，需要进行转换 #将得到的TF-IDF结构转换成数组的形式，并 ...

分类：其他好文时间：2018-09-26 01:15:20 阅读次数：227

word2vec 构建中文词向量

词向量作为文本的基本结构——词的模型，以其优越的性能，受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起，这对后续的文本分类，文本聚类等等操作提供了便利，本文将详细介绍如何使用word2vec构建中文词向量。一、中文语料库本文采用的是搜狗实验室的搜狗新闻 ...

分类：其他好文时间：2018-09-23 16:22:44 阅读次数：338

数据挖掘——文本挖掘

文本挖掘是将文本信息转化为可利用的数据的知识。第一步：创建“语料库” 语料库（Corpus）是我们要分析的所有文档的集合。实现逻辑：将各文本文件分类放置在一个根目录下，通过读取根目录下所有子目录中的所有文件，然后将读取结果赋值到一个数据框中，得到含有文件路径、文件内容的结果。代码核心：构 ...

分类：其他好文时间：2018-09-11 23:50:44 阅读次数：220

word2vec 和 doc2vec 词向量表示

Word2Vec 词向量的稠密表达形式（无标签语料库训练） Word2vec中要到两个重要的模型，CBOW连续词袋模型和Skip-gram模型。两个模型都包含三层：输入层，投影层，输出层。 1.Skip-Gram神经网络模型（跳过一些词） skip-gram模型的输入是一个单词wI，它的输出是wI的 ...

分类：其他好文时间：2018-09-06 23:06:01 阅读次数：315

transtoolweb: 帮助译者更快速、更准确翻译（http://transtoolweb.tk）

transtoolweb:是一个精悍、实用的辅助翻译小工具。该工具提供了一些译者常用到的搜索功能，包括：中英文同义词、近义词、反义词中文同义词：哈工大同义词中文近义词：基于深度学习技术和维基百科数据生成英文同义词：Wordnet 词源：etymonline 微软+联合国双语语料库：秒搜300 ...

分类：Web程序时间：2018-08-31 15:50:38 阅读次数：542

在PYTHON中使用TMTOOLKIT进行主题模型LDA评估

主题建模的英文一种在大量文档中查找抽象艺术主题艺术的方法。有了它，就有可能发现隐藏或“潜在”主题的混合，这些主题因给定语料库中的文档而异。一种作为监督无的机器学习方法，主题模型不容易评估，因为没有标记的“基础事实”数据可供比较。然而，由于主题建模通常需要预先定义一些参数（首先是要发现的主题?的数量） ...

分类：编程语言时间：2018-08-28 20:11:14 阅读次数：252

共191条上一页 1 ... 5 6 7 8 9 ... 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)