协同算法: User-Based CF 计算user与user的相似度矩阵 Item-Based CF计算item-item的相似度矩阵 假设: - 用户喜欢哪些跟他有相似爱好的用户喜欢的东西 - 具有相似兴趣的用户在未来也具有相似兴趣 方法: - 给定用户u,找到一个用户的集合N(u),他们和u具 ...
分类:
编程语言 时间:
2020-07-26 02:07:02
阅读次数:
123
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。 TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为T ...
分类:
其他好文 时间:
2020-07-26 01:56:59
阅读次数:
77
数据挖掘的五大流程 获取数据 数据预处理 数据预处理是从数据中检测,纠正或删除孙华,不准确或不适用于模型的记录的过程 目的: 让数据适应模型, 匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在无问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现. 目的 ...
分类:
其他好文 时间:
2020-07-24 16:21:20
阅读次数:
91
数据挖掘导论 完整版PDF+PPT+Python R 代码 内容介绍 本书对数据挖掘进行了全面介绍,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章:前面一章讲述基本概念、代表性算法和评估技术,而后面一章较深入 ...
分类:
编程语言 时间:
2020-07-23 16:03:17
阅读次数:
128
...占位 xorriso -as mkisofs -o ../iso/oem-lenovo-uos-20-SP1-desktop-amd64.iso -no-pad \ -isohybrid-mbr /usr/lib/ISOLINUX/isohdpfx.bin \ -c isolinux/boot ...
分类:
其他好文 时间:
2020-07-19 23:39:29
阅读次数:
92
C#5.0 异步编程 调用方信息特性 异步编程 在.NET Framework中,有三种不同的模型来简化异步编程。 .NET1.x中的异步编程模型(APM)方式(类似Beginxx/Endxx方法,使用IAsyncResult和AsyncCallback来传播回调和结果) .NET2.0中的基于事件 ...
什么是Apache SkyWalking? SkyWalking:一个APM(应用程序性能监视器)系统,专门为微服务,云原生和基于容器(Docker,Kubernetes,Mesos)的体系结构而设计。 SkyWalking是一个开源APM系统,包括对Cloud Native体系结构中的分布式系统的 ...
分类:
Web程序 时间:
2020-07-18 15:49:07
阅读次数:
133
#一、实验目标 在掌握基于Weka工具的数据挖掘(分类、回归、聚类、关联规则分析)应用的基础上,实现基于Weka API的数据挖掘程序设计。 #二、实验内容 1.下载安装JDK 7.0 64位版,Weka 3.7版,Eclipse IDE for Java Developers 4.0以上版本。 2 ...
分类:
其他好文 时间:
2020-07-18 00:35:51
阅读次数:
87
Scikit-learn 之 TF-IDF TF-IDF基础 TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料 ...
分类:
其他好文 时间:
2020-07-17 16:09:27
阅读次数:
71
毕业工作前曾幻想在工作中自己的技术会飞速增长,但工作一年后真正的认识到了职场的真实情况。 目标: 原本打算做Java开发,不过算是自己的机遇,入了大数据组,也怪自己太懒,不喜欢钻研,所以到如今,工作虽游刃有余,但技术感觉不仅没有成长,反而隐隐有些倒退,我心惶恐,立志在接下来半年中持续学习,并坚持要要 ...
分类:
其他好文 时间:
2020-07-15 01:15:10
阅读次数:
118