分析要求: 1. 对所给463条评语进行分词聚类,分析其所反映的活动类型 以下是人工分析得出的主要活动类型的参考举例: 2. 按年份统计各种活动类型每年所提及的频次 比如:亲子阅览,这一活动在13年-17年每年分别有多少条评语提到过。对所有活动进行分析,提供结果列表。 3.提供过程源码 "十月一去的 ...
分类:
编程语言 时间:
2018-04-24 21:53:37
阅读次数:
352
第四章 谈谈分词 1 中文分词方法的演变 最早的方法(北航):查字典,可以解决七八成问题,成本不高,效果还行。 随后(哈工大):最少词数的分词理论,即一句话应该分词数量最少的词串。不足之处在于二义性。 郭进(清华):统计语言模型方法,文中有详细的公式说明。就是对一句话可能有S种分法,其中有一种分法出 ...
分类:
其他好文 时间:
2018-04-24 20:22:27
阅读次数:
194
转载: http://www.cnblogs.com/jiayongji/p/7119065.html 结巴是一个功能强大的分词库。 安装jieba pip install jieba 简单用法 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 ...
分类:
编程语言 时间:
2018-04-24 17:26:45
阅读次数:
361
Studio 爬虫 文本分词 化词云个性化设计 分析步骤 setwd() install.packages("rjava") install.packages("wordcound") install.packages("wordcound2") library(rjava) library(wor ...
分类:
其他好文 时间:
2018-04-24 14:50:25
阅读次数:
172
中文分词主要分为三个流派:机械式分词法(基于词典):简单来说就是建立一个巨大的词典,然后将词典中的词语和文章中的词语相匹配,找到这个词语就算匹配成功,但是词典的完备性得不到保证。也就是文章中的有的词语在词典中找不到。基于语法和规则的分词法:分词的同时在句法语义方面进行分析,利用句法信息和语义信息进行词性标注,解决分词的歧义。因为现在的语法句法还十分复杂,所以精度还不高。基于统计的分词法根据字符串在
分类:
其他好文 时间:
2018-04-24 11:50:25
阅读次数:
166
1.选一个自己感兴趣的主题或网站。(所有同学不能雷同) 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 3.对爬了的数据进行文本分析,生成词云。 4.对文本分析结果进行解释说明。 通过使用第三方的jieba库进行中文分词,其中有过多新闻正文内容包含视频链接,所以通过设计了停用词,去掉 ...
分类:
其他好文 时间:
2018-04-23 00:09:24
阅读次数:
228
利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2。 1、安装并加载jiebaR 2、以2018年政府工作报告为文本,进行分词 (1)首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中 读取文本: (2)分词处理: ...
分类:
编程语言 时间:
2018-04-22 12:48:11
阅读次数:
900
第一步下载分词器https://pan.baidu.com/s/1X8v65YZ4gIkNQXsXfSULBw 第二歩打开已经解压的ik分词器文件夹 将ik-analyzer-solr5-5.x.jar,IKAnalyzer.cfg.xml复制到 apache-tomcat-8.5.24\webap ...
分类:
其他好文 时间:
2018-04-21 17:41:42
阅读次数:
185
自然语言处理任务数据集 keywords: NLP, DataSet AI Challenger 英中翻译评测 适用领域:机器翻译 规模最大的口语领域英中双语对照数据集。提供了超过1000万的英中对照的句子对作为数据集合。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。 训练集:10 ...
分类:
编程语言 时间:
2018-04-19 23:56:50
阅读次数:
1651
LTP(Language Technology Platform)由哈工大社会计算与信息检索研究中心开发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 LTP的源码是C++,也提供Java和Python版本。Python版本的安装方法是 ...
分类:
其他好文 时间:
2018-04-18 23:40:35
阅读次数:
1790