13-垃圾邮件分类2 TF-IDF 概念 是一种统计方法,用以评估一个词对于一个语料库中一份文件的重要程度。 词的重要性随着在文件中出现的次数正比增加,同时随着它在语料库其他文件中出现的频率反比下降。就是说一个词在某一个文档中出现次数比较多,其他文档没有出现,说明该词对该份文档分类很重要。然而如果其 ...
分类:
其他好文 时间:
2020-05-23 20:23:01
阅读次数:
66
1.根据训练集语料库,计算出tfidf值 2.计算出测试语句每个词语的tfidf值(只有当测试语句的词语在训练语料库的dictionary中,测试语句的词语才会计算tfidf值) import jieba from gensim import corpora, similarities, model ...
分类:
其他好文 时间:
2020-05-23 16:30:17
阅读次数:
106
MongoDB MongoDB是一个提供了高性能、高可用及自动伸缩功能的开源的文档数据库(Document Database),由C++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案 文档数据库 在MongoDB中一条记录就是一个文档,文档本身类似于JSON对象,其数据结构是组合的键值 ...
分类:
数据库 时间:
2020-05-17 13:19:51
阅读次数:
61
ps:今天终于答辩完,希望下次不要再忘记学习了! 之前一直没分清基于内容的推荐算法和协同过滤算法是咋回事,这几天简单查了下做个简单记录 https://www.zhihu.com/question/19971859 https://www.jianshu.com/p/5a867ef083ff htt ...
分类:
编程语言 时间:
2020-05-16 22:28:22
阅读次数:
150
Elasticsearch打分机制 # es:重要的就是查询,全文检索 # 打分机制的公式:TF-IDF - 一个词条在某篇文档中出现的次数越多,该文档就越相关,分越高,`TF`是词频(term frequency) - 一个词条如果在不同的文档中出现的次数越多,它就越不相关,分越低,`IDF`是逆 ...
分类:
其他好文 时间:
2020-05-12 09:55:07
阅读次数:
57
1.首先定义树形结构类 /// <summary> /// 构建树形结构类 /// </summary> public class TreeModel { public string ID { set; get; } public string PARENTID { set; get; } publ ...
异常提示 查看异常 使用监视器 启动程序监视器时将一并打印出错误地址对应的源语句位置 使用gdb 运行gdb使用 加地址指令查看,需要关注的地址有: 1.在 中的 和`A0 0x80 0x40`。 2.在 中的 前的地址。 ...
分类:
其他好文 时间:
2020-05-06 12:21:51
阅读次数:
112
想起好久以前写的代码,留个记录。https://github.com/junhuanchen/esp idf software serial 若是串口不够用的,加上它就有一堆串口了,但 K210 好像有三个串口,应该不太需要了吧? 再说吧~ ...
分类:
编程语言 时间:
2020-05-02 00:26:07
阅读次数:
170
TF IDF基础: TF IDF(Term Frequency InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词的在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。它的优点是能过滤掉一些常见 ...
分类:
其他好文 时间:
2020-04-30 12:01:23
阅读次数:
88
scala代码: package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa ...
分类:
其他好文 时间:
2020-04-23 21:27:31
阅读次数:
67