一、基础知识 假设有一份文本数据如下,数据量很大,现在要对整个语料库进行文本分析,category代表新闻种类,theme代表新闻主题,URL代表新闻链接地址,content代表新闻主题内容 停用词:在content这一列,在数据量很大的情况,很容易发现某些似乎与新闻本身意义不大的词大量出现,而我们 ...
分类:
其他好文 时间:
2019-09-03 16:30:45
阅读次数:
171
TF-IDF介绍 TF-IDF是NLP中一种常用的统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,通常用于提取文本的特征,即关键词。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。 在NLP中,TF-IDF的计算公式如下: ...
分类:
其他好文 时间:
2019-09-02 15:44:17
阅读次数:
98
一、 在准备王陆语料库资料时发现给的录音文件好多带有空格,不喜欢这样的,而且不方面mac下搜索和查找,所以想把它全部删掉,命令如下: 效果如下: ...
分类:
系统相关 时间:
2019-08-28 18:40:08
阅读次数:
128
之前我写过一篇文章,利用bert来生成token级向量(对于中文语料来说就是字级别向量),参考我的文章:《使用BERT模型生成token级向量》。但是这样做有一个致命的缺点就是字符序列长度最长为512(包含[cls]和[sep])。其实对于大多数语料来说已经够了,但是对于有些语料库中样本的字符序列长 ...
分类:
其他好文 时间:
2019-08-28 12:41:32
阅读次数:
349
import jieba from gensim import corpora # (语料库) from gensim import models # 训练模型 from gensim import similarities # 相似度处理 # 总体思路; # 1.先遍历语法库,jieba.cut( ...
分类:
其他好文 时间:
2019-07-26 19:14:44
阅读次数:
121
Causal Corpus 事件因果关系语料统计 本文是对因果关系抽取领域数据库标注及开源情况的统计。除了对因果关系的标注,一些类似的语料也包含在内,从而为语料的使用提供灵活性,可以根据不同的目标选取不同的语料库。 领域简介 因果关系通常标注为 ( cause , effect , signal ) ...
分类:
其他好文 时间:
2019-07-16 22:50:46
阅读次数:
288
首先需要具备gensim包,然后需要一个语料库用来训练,这里用到的是skip-gram或CBOW方法,具体细节可以去查查相关资料,这两种方法大致上就是把意思相近的词映射到词空间中相近的位置。 语料库test8下载地址: http://mattmahoney.net/dc/text8.zip 这个语料 ...
分类:
编程语言 时间:
2019-06-26 13:48:38
阅读次数:
299
知识点 1、wiki词库处理 繁体字转为简体字 2、对简体语料库进行jieba分词 3、word2vec建模 4、加载模型,预测 ...
分类:
其他好文 时间:
2019-06-11 12:42:31
阅读次数:
103
自然语言表征模型最近受到非常多的关注,很多研究者将其视为 NLP 最重要的研究方向之一。例如在大规模语料库上预训练的 BERT,它可以从纯文本中很好地捕捉丰富的语义模式,经过微调后可以持续改善不同 NLP 任务的性能。因此,我们获取 BERT 隐藏层表征后,可用于提升自己任务的性能。 但是,已有的预 ...
分类:
编程语言 时间:
2019-05-31 01:10:57
阅读次数:
2638
本文给出了NTCIR We Want Web(WWW)任务的概述,该任务包括中文和英语子任务。WWW任务是一个经典的ad-hoc 文本检索任务。这次的WWW收到了4个队伍提交的19个中文任务运行结果,三个队伍提交的13个英语任务运行结果。在这篇概述中,我们描述了任务细节、数据、评测方法以及官方结果报... ...
分类:
Web程序 时间:
2019-05-27 11:56:35
阅读次数:
261