1.新闻的特征向量 TF-IDF(词频的权重度量):TF1xIDF1 TF2xIDF2 TF3xIDF3.。。。。其中TF是词在文章中出现的频率,IDF是权重。给虚词赋予比较低的权重。 针对一篇文章,然后对词汇表的每个词给予一个TF-IDF值,这样就得到文章的特征向量,文章中没有出现 的词就是0。 ...
分类:
其他好文 时间:
2018-11-25 16:23:26
阅读次数:
203
大纲: Spark Streaming简介 Spark Streaming的原理和架构 Spark Streaming之基础抽象DStream DStream相关操作 Spark Streaming与flume整合 Spark Streaming与kafka整合 Spark Streaming简介 ...
分类:
其他好文 时间:
2018-11-25 01:21:06
阅读次数:
230
? 第二次结对编程项目总结 + 第二次结对项目(词频统计要求网址): "https://www.cnblogs.com/xinz/archive/2011/11/27/2265000.html" + 项目网址: "https://github.com/QishenDatui/WordFrequenc ...
分类:
其他好文 时间:
2018-11-03 20:21:15
阅读次数:
177
代码: "https://github.com/jackroos/word_frequency" how you collaborate: working separately? pair programming? VS Live Share? other style? 首先我们一起讨论了代码结构, ...
分类:
其他好文 时间:
2018-11-03 17:29:41
阅读次数:
225
代码仓库位于: Azure 可执行程序 (Windows .exe) 位于:可执行文件 (不是病毒) 合作方式 首先我们采用的程序语言是 C++,我们采用的平台是 Azure DevOps。 总体的合作方式是采用官僚式,即每个人都负责各自的一个功能,本次程序中一共有4个功能需要实现:字母占比、单词统 ...
分类:
其他好文 时间:
2018-11-02 23:30:35
阅读次数:
107
1、TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).(逆文档词频) 2、自我理解: 公式TF = $$\frac{语料库中关键词出现的次数}{总词数量}$$ ##权重w (词频) 或者 TF = $$\frac{某个词在文章中出 ...
分类:
其他好文 时间:
2018-11-02 01:43:07
阅读次数:
172
词频统计 1.需求:读取指定目录的数据,并且实现单词计数功能 2.实现方案: Spout用于读取指定文件夹(目录),读取文件,将文件的每一行发射到Bolt SplitBolt用于接收Spout发射过来的数据,并拆分,发射到CountBolt CountBolt接收SplitBolt发送的每一个单词, ...
分类:
其他好文 时间:
2018-10-31 14:24:38
阅读次数:
247
TF:term frequency ,词频 。指的是 term 出现的评率。在 一般来说次出现几次 词频 就是 几。但是如果这个词出现次数很少,但是 这个index 的 文档很多。这时候就不合理了。 所以 一般 TF = 词条在文档出现的次数 / 文档总词数。 IDF:倒排索引的频率。 log ( ...
分类:
其他好文 时间:
2018-10-30 17:45:07
阅读次数:
185