数据科学(Data Science)是从数据中提取知识的研究,关键是科学。数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机 编程,统计学,数据工程,模式识别和学习...
分类:
其他好文 时间:
2015-04-14 13:10:52
阅读次数:
115
Spark Contributor,Databricks工程师连城,华为大数据平台开发部部长陈亮,网易杭州研究院副院长汪源,TalkingData首席数据科学家张夏天联袂力荐1.本书全面、系统地介绍了Spark源码,深入浅出,细致入微2.提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序....
分类:
Web程序 时间:
2015-04-09 06:22:34
阅读次数:
163
在刚刚过去的spark submit上,Matei Zahara简单回顾了下2014年spark的发展,可用一个词来概括那就是"Amazing"!!!那么2015年,spark 将主要精力放在哪些方面呢?一个是数据科学,即提供更高级的API接口,使得用户更易上手,像在单台机器上使用。主要的改变是:1...
分类:
其他好文 时间:
2015-03-29 20:55:12
阅读次数:
150
目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单PyPi上就有超过47000个包列表。 现在,越来越多的数据科学家开始使用Python,虽然他们从pandas,scikit-learn,numpy中获得了不少好处,但我仍想向他们介绍一些年长且非常实用的Python库。在.....
分类:
编程语言 时间:
2015-03-10 11:37:41
阅读次数:
182
在R语言中,有下面三种操作符可以提取对象的子集:
? “[”通常返回的对象与原对象的类型相同;它也可以返回一个对象中的多个元素
? “[[”用来从列表(list)或数据框(data.frame)中提取对象;也可从列表或数据框中提取单个元素,且返回对象的类型可以不为列表和数据框。
? “$”可以通过名称从列表和数据框中提取元素;如果仅从抽取元素的角度来看,和“[[”没有区别
(1...
分类:
编程语言 时间:
2015-03-07 14:12:30
阅读次数:
515
目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单PyPi上就有超过47000个包列表。现在,越来越多的数据科学家开始使用Python,虽然他们从pandas,scikit-learn,numpy中获得了不少好处,但我仍想向他们介绍一些年长且非常实用的Python库。在本文中...
分类:
编程语言 时间:
2015-03-03 20:28:21
阅读次数:
190
本文由伯乐在线-HanSir翻译,toolate校稿英文出处:Quora【伯乐在线导读】:这个问题来自 Quora,题主还补充说,“似乎很多搞数据的程序员都挺擅长 Python 的,这是为什么呢?”下面是Jeff Hammerbacher 的回复。(693 赞)Python是一种解释型、动态语言,具...
分类:
编程语言 时间:
2015-02-11 00:29:57
阅读次数:
312
1.原子对象
R语言有5类最基本的原子对象:
1) 字符型character
字符型对象用” ”包括。
2) 数值型numeric(real numbers)
数字对象在R中默认为数值型(numeric),如果你需要指定一个数据为整数型,需要在改数字后加上L。如:数字123默认为numeric型,如果需要其为integer型,可表示为123L。
3) 整数型integer...
分类:
编程语言 时间:
2015-02-06 09:33:49
阅读次数:
352
目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单PyPi上就有超过47000个包列表。现在,越来越多的数据科学家 开始使用Python,虽然他们从pandas,scikit-learn,numpy中获得了不少好处,但...
分类:
编程语言 时间:
2015-01-30 06:46:27
阅读次数:
259
原文来自于:http://www.techug.com/11-python-libraries-you-might-not-know目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单PyPi上就有超过47000个包列表。现在,越来越多的数据科学家开始使用Python,虽然他们...
分类:
编程语言 时间:
2015-01-29 19:31:41
阅读次数:
194