一款功能丰富、使用简单的数据处理工具无疑可以带来极大的帮助,可以为业务人员、数据分析师和数据科学家节省大量的时间和精力。BigSheets就是这样一款设计用来处理海量数据的图形化工具。...
分类:
其他好文 时间:
2016-07-15 21:33:32
阅读次数:
127
#转自wx公众号:Python开发者 #问题/答案来源:Quora 英文:Roman Trusov 译文:伯乐在线专栏作者 - XiaoxiaoLi 链接:http://python.jobbole.com/85704/ 【伯乐在线导读】:有位网友在 Quora 提问,并补充说「我有10天空闲时间, ...
分类:
其他好文 时间:
2016-07-14 21:40:06
阅读次数:
309
大数据科学丛书系列的最新一本《Scala语言基础与开发实战》即将面市,预计月底上架。内容还是不错的,文笔简介,内容实用,值得学、用。大数据资深培训师王家林新作。详细介绍大数据开发语言Scala及其在分布式框架Akka和Kafka中的应用。秉承“实战”类图书特点,解析大量代码的..
分类:
编程语言 时间:
2016-07-07 17:41:26
阅读次数:
280
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,我们经常不管三七二十一,选择一种 ...
分类:
其他好文 时间:
2016-06-22 12:46:42
阅读次数:
203
从网上看到一篇总结的很不错的sklearn使用文档,备份勿忘。 引言 对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库 ...
分类:
其他好文 时间:
2016-06-22 10:44:49
阅读次数:
273
目录 前言 第1章导论1 1.1数据的威力1 1.2什么是数据科学1 1.3激励假设:DataSciencester2 1.3.1寻找关键联系人3 1.3.2你可能知道的数据科学家5 1.3.3工资与工作年限8 1.3.4付费账户10 1.3.5兴趣主题11 1.4展望12 第2章Python速成1 ...
分类:
其他好文 时间:
2016-06-14 23:58:08
阅读次数:
597
目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数 ...
分类:
其他好文 时间:
2016-06-14 23:34:52
阅读次数:
259
题目描述:给你两个相同大小的向量 A B,求出他们的余弦相似度;返回 2.0000 如果余弦相似不合法 (比如 A = [0] B = [0]).
样例:给出 A = [1, 2, 3], B = [2, 3 ,4]. 返回 0.9926,给出 A = [0], B = [0]. 返回 2.0000
python计算这种数据科学的东西简直是举重若轻,即使不用任何第三方的库,也能以很简洁...
分类:
其他好文 时间:
2016-06-12 03:19:31
阅读次数:
241
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。
特征选择主要有两个功能:
减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解...
分类:
其他好文 时间:
2016-06-12 03:17:06
阅读次数:
324
一个Data Mad Scientist的技能树:左手是system,右手是statistic statistic估计要到ms才有机会系统学习一遍,目前只能先补左手了。。。 Source:人大经济论坛 ...
分类:
其他好文 时间:
2016-05-24 11:56:32
阅读次数:
154