总结 样本类别分布不均衡处理(处理过拟合和欠拟合问题) 过抽样(上采样):通过增加分类中少数类样本的数量来实现样本均衡 from imblearn.over_sampling import SMOTE 欠抽样(下采样):通过减少分类中多数类样本的数量来实现样本均衡 (可能造成样本数据大量丢失) fr ...
分类:
其他好文 时间:
2020-07-28 00:04:11
阅读次数:
85
在解决问题中,θ可能不是一个值,可能是一个向量,所以在求导的时候可以写成求梯度的形式,求函数在每个方向上的偏导数。 其实和上一节处理的问题也相似,只不过这个处理的不是一个数,是一个向量。 这是一个三元函数的曲线图。图中的红色圈圈就是函数曲线。假如起始点从左上角那个点出发,一直到数值最低的点,其实这个 ...
分类:
其他好文 时间:
2020-07-27 23:56:02
阅读次数:
90
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 文本分类是自然语言处理的重要应用之一。在机器学习中有多种方法可以对文本进行分类。但是这些分类技术大多需要大量的预处理和大量的计算资源。在这篇文章中,我们使用PyTorch来进行多类文本分类,因为它有如 ...
分类:
其他好文 时间:
2020-07-27 15:47:34
阅读次数:
72
作者|DR. VAIBHAV KUMAR 编译|VK 来源|Analytics In Diamag 自然语言处理(NLP)有很多有趣的应用,文本生成就是其中一个有趣的应用。 当一个机器学习模型工作在诸如循环神经网络、LSTM-RNN、GRU等序列模型上时,它们可以生成输入文本的下一个序列。 PyTo ...
分类:
其他好文 时间:
2020-07-26 19:20:18
阅读次数:
68
一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能 ...
分类:
其他好文 时间:
2020-07-26 15:43:33
阅读次数:
56
数据分析基本流程 Python基本数据类型 Python各种括号的使用方式 数据分析基本流程 数据采集 数据挖掘 理解业务需求,对挖掘目标进行定义 理解数据:进行数据描述,数据质量验证 数据准备:收集数据(数据导入与导出)、数据清洗、数据集成 建模:选择和应用各种数据挖掘类型 数据可视化 报表工具 ...
分类:
编程语言 时间:
2020-07-26 15:04:48
阅读次数:
64
协同算法: User-Based CF 计算user与user的相似度矩阵 Item-Based CF计算item-item的相似度矩阵 假设: - 用户喜欢哪些跟他有相似爱好的用户喜欢的东西 - 具有相似兴趣的用户在未来也具有相似兴趣 方法: - 给定用户u,找到一个用户的集合N(u),他们和u具 ...
分类:
编程语言 时间:
2020-07-26 02:07:02
阅读次数:
123
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。 TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为T ...
分类:
其他好文 时间:
2020-07-26 01:56:59
阅读次数:
77
作者|GUEST 编译|VK 来源|Analytics Vidhya 介绍 时间序列预测是机器学习的一个非常重要的领域,因为它让你能够提前“预见”并据此制定业务计划。 在本博客中,我们将了解什么是时间序列预测,Power BI如何制作时间序列预测图和Power BI用于预测的模块。 什么是时间序列预 ...
分类:
其他好文 时间:
2020-07-26 01:51:41
阅读次数:
87
关于如何使用机器学习来做异常检测的7个问题 导读 异常检测的一些入门问题。 关于如何使用机器学习来做异常检测的7个问题 问问题是学习的好方法之一。但有时你不知道从哪里开始,或者该问什么 —— 尤其是在你还比较熟悉的异常检测之类的话题上。在这种情况下,最好倾听别人的问题,让他们的思路来指导你的学习。以 ...
分类:
其他好文 时间:
2020-07-26 00:37:36
阅读次数:
63