写这篇文章的目的,就是希望它可以让有志于从事数据科学和机器学习的诸位在学习算法的路上少走些路。我会在文章中举例一些机器学习的问题,你们也可以在思考解决这些问题的过程中得到启发。我也会写下对于各种机器学习算法的一些个人理解,并且提供R和Python的执行代码。读完这篇文章,读者们至少可以行动起来亲手试试写一个机器学习的程序。...
分类:
编程语言 时间:
2016-04-19 19:40:18
阅读次数:
395
最近,我一直在看美国德克萨斯州奥斯汀举办的SciPy 2015会议上的一段视频——“用Blaze和Bokeh创建Python数据应用程序”,并且情不自禁地反复思考这两个库赋予世界各地使用Python的数据科学家们的强大能力。在本文中,我将带你体验使用Bokeh实现数据可视化的各种可能途径,以及Bok ...
分类:
编程语言 时间:
2016-04-14 11:53:53
阅读次数:
214
数据科学中R VS Python:获胜者是…在”最佳”数据科学工具的比赛中,R和Python都有自己的优缺点.对二者的选择取决于使用背景,学习花费和其他常用工具的需要 Martijn Theuwissen发表于DataCamp.在DataCamp,学生经常问我们他们日常数据分析任务使用R或Python。虽然我们主要是提供交互式R教程,我们总是回答这个问题取决于他们所面对的数据分析挑战的类型。
R和...
分类:
编程语言 时间:
2016-04-05 17:58:27
阅读次数:
191
通常来说,我们可以从两个方面来提高一个预测模型的准确性:完善特征工程(feature engineering)或是直接使用Boosting算法。通过大量数据科学竞赛的试炼,我们可以发现人们更钟爱于Boosting算法,这是因为和其他方法相比,它在产生类似的结果时往往更加节约时间。 Boosting算 ...
分类:
编程语言 时间:
2016-03-30 01:32:32
阅读次数:
190
来自 http://datartisan.com/article/detail/74.html 导语: 提升一个模型的表现有时很困难。如果你们曾经纠结于相似的问题,那我相信你们中很多人会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。你会觉得无助和困顿,这是90%的数据科学家
分类:
其他好文 时间:
2016-02-11 00:32:30
阅读次数:
393
作者:Edwin Jarvis 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值
分类:
其他好文 时间:
2016-02-11 00:29:01
阅读次数:
474
2015-10-30数据科学自媒体类MATLAB API最简单的入门是从类 MATLAB API 开始,它被设计成兼容 MATLAB 绘图函数。让我们加载它:from pylab import *使用 qt 作为图形后端:%matplotlib qt示例类MATLAB API 绘图的简单例子:fro...
分类:
编程语言 时间:
2016-01-19 23:39:02
阅读次数:
4426
VMware CEO Pat Gelsinger曾说:数据科学是未来,大数据分析则是打开未来之门的钥匙企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要...
分类:
其他好文 时间:
2016-01-19 12:36:06
阅读次数:
156
基础:linux常用命令、Java编程基础大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等等。Hadoop: 一个开源的分布式存储、分布式计算平台.(基于Apache)Hadoop的组成: HDFS:分布式文件系统,存储海量的数据。 MapReduce:并行处理框架...
分类:
其他好文 时间:
2016-01-15 12:55:14
阅读次数:
141
【数据源】24万数据集:社会发展类公开数据清单2016-01-06周炜乐数盟数盟是一个开放的数据科学交流社区,致力于成为发现与培养“数据科学家”的基地,欢迎关注数盟或推荐数盟给身边的小伙伴~公开数据能帮助记者找到好故事、验证信息。来自34个国家的24万数据如何一搜可得?有哪些关于社会发展议题的权威门...
分类:
其他好文 时间:
2016-01-09 21:40:58
阅读次数:
287