1. TF-IDF TF-IDF是一种统计方法,用以评估一个词对一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。 2. TF-IDF使用场景 TF-IDF加权的各种形式常被用搜索引擎应用,作为文件与用户查询之间相关程度的度量 ...
分类:
其他好文 时间:
2020-01-01 17:05:05
阅读次数:
99
Hystrix 是Netflix开源的一个延迟和容错库,用于隔离访问远程服务,防止出现级联失败 一、Hystrix 的定义 二、Hystrix 的原理 在分布式式系统中应用熔断器后,服务调用方可以自己进行判断某些服务反应慢或者存在 大量超时的情况,能够主动熔断,防止整个系统被拖垮。当情况好转时,可以 ...
分类:
其他好文 时间:
2019-12-17 22:26:28
阅读次数:
92
参考文献: https://www.jianshu.com/p/b4f06594d32f https://my.oschina.net/stanleysun/blog/1617727 ...
分类:
其他好文 时间:
2019-12-16 20:53:14
阅读次数:
89
原文链接:http://tecdat.cn/?p=9448 目录 获取和整理NASA元数据 计算文字的tf-idf 连接关键字和描述 可视化结果 NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。有关NASA数据集的元 ...
分类:
编程语言 时间:
2019-12-13 19:52:40
阅读次数:
79
NASA Metadata: tf-idf of Description Texts and Keywords There are 32,000+ datasets at NASA, and NASA is interested in understanding the connections be ...
分类:
Web程序 时间:
2019-12-13 18:03:15
阅读次数:
130
概括:朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用。朴素贝叶斯是建立在“全概率公式”的基础下的,由已知的尽可能多的事件A、B求得的P(A|B)来推断未知P(B|A),是的有点玄学的意思,敲黑板!!! 优点: ...
分类:
其他好文 时间:
2019-12-13 14:20:21
阅读次数:
295
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:
其他好文 时间:
2019-11-18 16:56:51
阅读次数:
240
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:
编程语言 时间:
2019-11-18 15:38:18
阅读次数:
73
Redis、Memcache和MongoDB的区别 https://www.cnblogs.com/tuyile006/p/6382062.html >>Memcached Memcached的优点:Memcached可以利用多核优势,单实例吞吐量极高,可以达到几十万QPS(取决于key、value ...
分类:
数据库 时间:
2019-11-18 10:10:34
阅读次数:
90
存储和加载: public void ConnectToSqlite (string DBName) { //判断名字是否规范,如果不规范就加上后缀 if (!DBName.Contains (".sqlite")) { DBName += ".sqlite"; } //如果运行在编辑器中 #if ...
分类:
移动开发 时间:
2019-11-18 10:00:11
阅读次数:
84