当特征和目标变量不是很相关时,可以修改输入的数据集,应用线性,非线性变换(或者其他相似方法)来提高系统的精度。 - 数据是“死”的,人的思维是“活”的。 - 数据科学家负责改变数据集和输入数据,使数据更好的符合分类模型。 基本方法:A. 特征的线性修正 B. 特征的非线性修正 K近邻方法(K-Nea ...
分类:
其他好文 时间:
2020-03-30 23:31:08
阅读次数:
101
与Scala语言相比,Python有其独特的优势和广泛的应用,python调用接口,因此Spark也推出了PySpark,它在框架上提供了一个使用Python语言的接口,python接收post请求接口为数据科学家使用框架提供了方便。 ...
分类:
编程语言 时间:
2020-03-29 01:41:51
阅读次数:
92
本部分展示一个ML项目,假设是一家房地产公司的新聘数据科学家。下面是这个项目的步骤: 看大图 获取数据 发现和可视化数据以获得见解 准备用于机器学习算法的数据 选择一个模型并进行训练 微调您的模型 介绍您的解决方案 启动,监视和维护系统。 在学习机器学习时,最好尝试使用真实数据而不是人工数据集。本部 ...
分类:
系统相关 时间:
2020-03-19 09:36:51
阅读次数:
96
如果你正在学习深度学习,也许你已经知道 fastai 这个词。这是一个深度学习社区,由Jeremy Howard发起,此公是麦肯锡咨询公司的第一位数据科学家,同时也是Kaggle的联合发起人。同时,fastai也是一个基于Pytorch的封装包,有点儿类似深度学习领域的sklearn,提供了很多神经 ...
企业上云已成不可逆的趋势,全面云计算时代宣告来临,微服务已成软件架构主流,Kubernetes 将会变得更酷,2020 年还有哪些技术趋势值得观察? 作者 | Md Kamaruzzaman 译者 | 无明 策划 | 小智 基础设施:条条道路通云端 对于云厂商来说,2019 年是硕果累累的一年。不仅 ...
分类:
其他好文 时间:
2019-12-26 19:21:49
阅读次数:
88
参考:https://blog.csdn.net/weixin_37813036/article/details/90718310 kaggle是一个为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台,在这上面有非常多的好项目、好资源可供机器学习、深度学习爱好者学习之用。碰巧 ...
分类:
其他好文 时间:
2019-12-23 00:19:19
阅读次数:
148
这就是为什么这么多数据科学家离职的原因 数据科学家的无奈! 是的,我是一名数据科学家,是的,您确实正确阅读了标题,但有人必须说出来。我们读了许多关于数据科学是21世纪最性感的工作,以及作为数据科学家可以赚到的诱人的金钱之类的故事,这看起来像是绝对的梦想工作。原因在于该领域包含大量的高技能人才,他们正 ...
分类:
其他好文 时间:
2019-12-17 13:33:40
阅读次数:
145
本篇随笔是数据科学家学习第六周的内容,主要参考资料为: 1.出场率No.1的逻辑回归算法,是怎样“炼成”的? https://mp.weixin.qq.com/s/xfteESh2bs1PTuO2q39tbQ 2.逻辑回归 https://developers.google.cn/machine-l ...
分类:
其他好文 时间:
2019-12-14 13:58:34
阅读次数:
114
梯度下降:实现梯度下降、线性回归中的梯度下降 随机梯度下降:相关代码即调用 本文参考:公众号《数据科学家联盟》文章 转自:https://www.cnblogs.com/huangyc/p/9801261.html#_label1_0 一、概念 梯度下降(Gradient Descent, GD)不 ...
分类:
其他好文 时间:
2019-12-08 12:49:36
阅读次数:
116
在PyCharm2019.2版本中集成Jupyter Notebooks!
分类:
其他好文 时间:
2019-10-23 11:25:12
阅读次数:
98