随机森林入门攻略(内含R、Python代码)简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获得第一组基准测试结果。在各种各样的问题中,随机森林一次又一次地展示出令人难以置信的强大,而与此同时它又是...
分类:
编程语言 时间:
2015-09-11 20:41:59
阅读次数:
423
机器学习编程语言之争,Python夺魁随着科技的发展,拥有高容量、高速度和多样性的大数据已经成为当今时代的主题词。数据科学领域中所采用的机器学习编程语言大相径庭。究竟哪种语言最适合机器学习成为争论不休的话题。近日,密西根州立大学的博士生Sebastian Raschka再次发起了机器学习编程语言之争...
分类:
编程语言 时间:
2015-09-08 20:01:57
阅读次数:
236
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择主要有两个功能:
减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解
拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择...
分类:
其他好文 时间:
2015-08-04 19:29:04
阅读次数:
312
数据科学家可能成为2015年最热门职业 腾讯科技讯 1月3日,你擅长数学,会用Python编程,而且还对某个行业了如指掌? 如果你拥有这样的技能集,那你就有可能当上数据科学家。而如果你当上了数据科学家,那你的日子就可以过得风风光光了——LinkedIn的最新投票结果显示,"统计分析和数据挖掘" 是2...
分类:
其他好文 时间:
2015-07-27 20:54:59
阅读次数:
155
盘点机器学习和统计模型的差异出处:微信公众号_Datartisan数据工匠(shujugongjiang)在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者...
分类:
其他好文 时间:
2015-07-25 13:35:41
阅读次数:
116
在数据科学领域有成千上万的包和数以百计的函数公式,你虽然不需要掌握所有的这些知识,但是有一个速查表在你的学习中是非常重要的。学习大数据包括对统计学、数学、编程知识(尤其是R、python、SQL)等知识的理解,还需要理解业务来驱动决策。这些表单也许能给你一些帮助。Python的速查表Python在初...
分类:
其他好文 时间:
2015-07-24 10:32:16
阅读次数:
148
注:本文为线下活动【CTO辩论会】移动创业大军:挣扎者or变革者实录,AppCan CTO赵庆华、Testin CTO 尹春鹏、云智慧CEO殷晋、TalkingData CTO肖文峰、爱加密CTO林魏、极光推送首席数据科学家黄鑫、51CTO学院技术总监李明小参与讨论。6位CTO从企业发展、技术探索、工作中的困惑到当下活跃的创业,探寻技术人在大潮中的瓶颈和机会。本文内容由活动参与方爱加密提供,篇幅较...
分类:
其他好文 时间:
2015-07-01 10:03:25
阅读次数:
265
该篇是近一周计算机类精品书籍专题,为方便大家在繁忙的工作学习中能够为挑选要买的书籍而节省时间提供便利,大家有什么需求和建议尽管反馈告知我们,我们都会在可以的范围内尽量一一满足。
一、《命令行中的数据科学》
大数据处理不一定非要写程序,小小命令行工具往往出奇制胜,高效数据分析必备。
购买地址点击打开链接
二、《C++标准库(第2版)》
最权威最畅销C++...
分类:
其他好文 时间:
2015-06-17 11:37:44
阅读次数:
134
发表于2015-03-24 22:58|11934次阅读| 来源个人博客|26条评论| 作者Tomasz Malisiewicz模式识别深度学习机器学习数据科学家摘要:本文我们来关注下三个非常相关的概念(深度学习、机器学习和模式识别),以及他们与2015年最热门的科技主题(机器人和人工智能)的联系,...
分类:
其他好文 时间:
2015-05-19 16:27:25
阅读次数:
125
引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。
在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。加载数据(Data Loading)我们假设输入时一个特征矩阵或者csv文件。
首先,数据应该被载入内存中。
scikit-learn的...
分类:
其他好文 时间:
2015-04-19 11:37:16
阅读次数:
241