本文翻译自文章: Pandas Cheat Sheet - Python for Data Science ,同时添加了部分注解。 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优 ...
分类:
其他好文 时间:
2017-05-16 14:37:27
阅读次数:
152
引言 从网页中提取信息的需求日益剧增,其重要性也越来越明显。每隔几周,我自己就想要到网页上提取一些信息。比如上周我们考虑建立一个有关各种数据科学在线课程的欢迎程度和意见的索引。我们不仅需要找出新的课程,还要抓取对课程的评论,对它们进行总结后建立一些衡量指标。这是一个问题或产品,其功效更多地取决于网页 ...
分类:
编程语言 时间:
2017-05-14 23:35:53
阅读次数:
432
1.Kaggle 基本介绍 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。在 Kaggle 上,企业或者研究机构发布商业和科研难题,悬赏吸引全球的数据科学家,通过众包的方式解决建模问题。而参赛者可以接触到丰富的真实数据,解决实际问题,角 ...
分类:
其他好文 时间:
2017-05-14 18:08:56
阅读次数:
237
想从事数据科学家的自我修炼(浪叫兽的书单)一年之内从零基础入门(以不抱大腿的姿势)拿下数据竞赛 一等奖 ,二等奖,三等奖携程赛的初练书单 在科赛网站上,我第一次报名参加了比赛是,酒店未来30天产量预测,当时参加比赛是16年的7月中旬了。距今日的17年5月中旬,不到一年的时间,在科赛网,同样是在携程的 ...
分类:
其他好文 时间:
2017-05-13 14:26:32
阅读次数:
653
每周荐书:我的世界、架构师、OpenStack(评论送书)
上周的荐书活动大家如此踊跃热情,看得出来在座各位都是爱书之人。
既然大家这么捧场,小编决定赠书数量翻倍,从这周开始每本书选出2位...
分类:
其他好文 时间:
2017-05-10 15:40:21
阅读次数:
293
上周一个叫 Abhishek Thakur 的数据科学家,在他的 Linkedin 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem,...
分类:
其他好文 时间:
2017-05-06 20:51:59
阅读次数:
176
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载自【机器之心】http://www.jiqizhixin.com/article/2499本文作者为来自 KPMG 的数据分析顾问 Upasana Mukherjee 如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imb ...
分类:
其他好文 时间:
2017-04-30 17:14:03
阅读次数:
147
引言:人类的未来就是失控,就是人与机器共生、共存。机器越来越人性化,人越来越机器化。《失控》这本书,主要就体现了这一思想。本文选自《全栈数据之门》一书。琅琊榜首,江左梅郎,得之可得数据科学之天下。电视剧《琅琊榜》是一部良心好剧,精心制作的剧情,外加画面精美..
分类:
其他好文 时间:
2017-04-27 19:50:21
阅读次数:
201
根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。本文就带你来了解这些主流的开源SQL引擎!背景介绍 本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以 ...
分类:
数据库 时间:
2017-04-24 21:20:23
阅读次数:
524
概述 和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了一个更有意义的话题。 数据科学项目的完整流程通常是这样的五步骤: 需求定义=》数据获取=》数据治理=》数据分析=》数据可视化 一、 ...
分类:
编程语言 时间:
2017-04-23 01:20:53
阅读次数:
291