1、TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).(逆文档词频) 2、自我理解: 公式TF = $$\frac{语料库中关键词出现的次数}{总词数量}$$ ##权重w (词频) 或者 TF = $$\frac{某个词在文章中出 ...
分类:
其他好文 时间:
2018-11-02 01:43:07
阅读次数:
172
常用语料资源 下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1).中科院自动化所的中英文新闻语料库 http://www.datatang.com/data/13484中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte ...
分类:
其他好文 时间:
2018-10-31 19:59:23
阅读次数:
916
软件简介 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约 ...
分类:
其他好文 时间:
2018-10-31 12:35:48
阅读次数:
215
先贴个看起来讲的不错的文章链接,后续详细看了再补充https://blog.csdn.net/leyounger/article/details/78206832 2018.10.28大概了解了下glove思想: 先构造文档中出现的共现矩阵,Xij的意义为:在整个语料库中,单词i和单词j共同出现在一 ...
分类:
其他好文 时间:
2018-10-28 21:55:00
阅读次数:
120
1. 分词的基本原理 现代分词都是基于统计的分词,而统计的样本内容来自于一些标准的语料库。假如有一个句子:“小明来到荔湾区”,我们期望语料库统计后分词的结果是:"小明/来到/荔湾/区",而不是“小明/来到/荔/湾区”。那么如何做到这一点呢? 从统计的角度,我们期望"小明/来到/荔湾/区"这个分词后句 ...
分类:
其他好文 时间:
2018-10-28 15:00:57
阅读次数:
175
主题模型 主题模型理理论 直观版 标准版 公式版实战 一眼看穿『希拉?里里邮件门』 什么是主体模型? 理论解释 理理解整个过程,涉及到?比较复杂数学推导。一般来说,从公式1?一直推导到公式100,大部分同学会在公式10左右的时候,就关了了直播,洗洗睡了了所以,我今天?用3个不不同版本的讲解,从简单到 ...
分类:
其他好文 时间:
2018-10-27 18:05:21
阅读次数:
205
介绍 本文将展示如何利用Python爬虫来实现诗歌接龙。 该项目的思路如下: 1. 利用爬虫爬取诗歌,制作诗歌语料库; 2. 将诗歌分句,形成字典:键(key)为该句首字的拼音,值(value)为该拼音对应的诗句,并将字典保存为pickle文件; 3. ...
分类:
编程语言 时间:
2018-10-18 21:58:23
阅读次数:
199
语料库 Brown语料库:100万个标注词,标注消歧信息,1970s完成,平衡语料库 Lancaster-Oslo-Bergen(LOB)语料库:Brown语料库的英式英语版本 Susanne语料库:13万词的Brown语料库子集,标注了句法结构 PennTree库:标注句法结构,来源华尔街日报 T ...
分类:
编程语言 时间:
2018-10-16 13:51:19
阅读次数:
232
词性标注标注语料库;各词性标注及其含义自动标注器;默认标注器;正则表达式标注器;查询标注器;N-gram标注器;一元标注器;分离训练和测试数据;一般的N-gram的标注;组合标注器;标注生词;储存标注器;性能限制;跨句子边界标注;隐马尔科夫标注器;生成模式;确定模式;非确定模式;隐藏模式;隐马尔科夫模型HMM是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此
分类:
编程语言 时间:
2018-10-02 17:53:43
阅读次数:
212
1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da ...
分类:
编程语言 时间:
2018-10-02 00:20:54
阅读次数:
288