引言 这段时间来,看了西瓜书、蓝皮书,各种机器学习算法都有所了解,但在实践方面却缺乏相应的锻炼。于是我决定通过Kaggle这个平台来提升一下自己的应用能力,培养自己的数据分析能力。 我个人的计划是先从简单的数据集入手如手写数字识别、泰坦尼克号、房价预测,这些目前已经有丰富且成熟的方案可以参考,之后关 ...
分类:
其他好文 时间:
2020-01-21 16:00:38
阅读次数:
106
该内容大部分来自<<百面机器学习算法工程师>> 1.特征工程 1.1为什么需要对数值类型进行归一化? 使各个指标处于同一数值量级,消除数据之间的量纲影响。 比如分析一个人的身高和体重对健康的影响。 1.2补充知识点 结构化数据:关系数据库的一张表,每列都有清晰的定义,包含了数值型和类别型 非结构化数 ...
分类:
其他好文 时间:
2020-01-19 09:42:38
阅读次数:
89
第一章 绪论 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。 基本术语 数据集:记录的集合 实例(样本):每条记录是关于一个事件或对象的描述 属性(特征):反映事件或对象在某方面的表现或性质的事项 属性值:属性上的取值 属性空间(样本空间/输入空间):属性张成空间 学习/训练 ...
分类:
其他好文 时间:
2020-01-19 00:01:00
阅读次数:
118
最近在学习研究pyspark机器学习算法,执行代码出现以下异常: 19/06/29 10:08:26 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Cou ...
分类:
编程语言 时间:
2020-01-14 13:18:30
阅读次数:
110
机器学习项目流程 在这我们会从头开始做一个机器学习项目,向大家展示一个机器学习项目的一个基本流程与方法。一个机器学习主要分为以下几个步骤: 从整体上了解项目 获取数据 发现并可视化数据,以深入了解数据 为机器学习算法准备数据 选择模型并训练 模型调优 展示解决方案 部署、监控、以及维护我们的系统 我 ...
分类:
其他好文 时间:
2020-01-10 16:06:32
阅读次数:
161
基于神经网络与因子分解机的点击率预估应用研究(陈检) 摘要 长久以来广告点击预估率问题属于用户行为预测研究问题,其主要解决是特征工程问题。 深度神经网络主要提取高阶特征,因子分解机提取二阶以下特征 注改:因子分解机实际应用中受限于计算复杂度,一般只考虑到2阶交叉特征(FM预测时间复杂度O(kn),F ...
分类:
其他好文 时间:
2020-01-06 22:43:25
阅读次数:
99
原文地址:https://blog.csdn.net/yubei2155/article/details/79343942Netflix大部分的推荐机制都是采用机器学习的算法。传统方式上,我们会收集一组用户如何使用我们服务的数据,然后在这组数据上采用一种新的机器学习算法。接下来我们会通过A/B测试的 ...
分类:
编程语言 时间:
2020-01-06 00:09:50
阅读次数:
71
1.软件工程师的知识技能水平需求: (1)算法/数据结构。算法+数据结构=程序,其重要性毋庸赘言。需要掌握明确无误的概念,适用范围,优劣。达到指导编程的作用。除了基础算法,一些基础机器学习算法也是加分点。 (2)编程能力。编程能力就是怎样正确、快速实现算法和数据结构。能够写出一段没有或尽量少bug的 ...
分类:
其他好文 时间:
2020-01-03 21:23:24
阅读次数:
91
文章来源: https://www.jianshu.com/p/091b7dc8f12a 这是一篇手把手教你使用 Python 实现机器学习算法,并在数值型数据和图像数据集上运行模型的入门教程,当你看完本文后,你应当可以开始你的机器学习之旅了! 本教程会采用下述两个库来实现机器学习算法: sciki ...
分类:
其他好文 时间:
2019-12-31 23:20:45
阅读次数:
109
Spark MLlib机器学习算法、源码及实战讲解pdf电子版下载 链接:https://pan.baidu.com/s/1ruX9inG5ttOe_5lhpK_LQg 提取码:idcb 《Spark MLlib机器学习:算法、源码及实战详解》书中讲解由浅入深慢慢深入,解析讲解了MLlib的底层原理 ...
分类:
编程语言 时间:
2019-12-29 18:11:23
阅读次数:
258