有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非要用哪种语言?)这个问题不会推迟太久,迟早要定夺。 ...
分类:
编程语言 时间:
2018-04-25 18:55:16
阅读次数:
148
数据挖掘:What?Why?How? 这个问题思考了很久,作为过来人谈一谈,建议先看下以前的一些回答。 什么是数据挖掘? 怎么培养数据分析的能力? 如何成为一名数据科学家? 磨刀不误砍柴工。在学习数据挖掘之前应该明白几点: 数据挖掘目前在中国的尚未流行开,犹如屠龙之技。 数据初期的准备通常占整个数据 ...
分类:
其他好文 时间:
2018-03-22 17:21:22
阅读次数:
255
1、什么是猫狗大战;数据集来源于Kaggle(一个为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台),原数据集有12500只猫和12500只狗,分为训练、测试两个部分。2、什么是Knn算法:K最近邻(k-Nearest Neighbor,KNN)基本思想:如果一个样本在特征... ...
分类:
编程语言 时间:
2018-03-18 20:16:14
阅读次数:
603
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决
分类:
其他好文 时间:
2018-03-16 15:12:36
阅读次数:
145
TensorFlow简明教程
通过实践教程体验Google开源机器学习库的强大功能。
机器学习不能在热了,有几个重量级的针对经验丰富的数据科学家和对神经网络感兴趣的新手平台。TensorFlow是其中之一,TensorFlow是Google一年前开源的一个机器学习库。
在这篇文章中,我向你介绍T... ...
分类:
其他好文 时间:
2018-03-14 15:51:32
阅读次数:
184
本文翻译自文章: Pandas Cheat Sheet - Python for Data Science ,同时添加了部分注解。 对于数据科学家,无论是数据分析还是数据挖掘来说,Pandas是一个非常重要的Python包。它不仅提供了很多方法,使得数据处理非常简单,同时在数据处理速度上也做了很多优 ...
分类:
其他好文 时间:
2018-01-03 00:48:48
阅读次数:
226
众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容。此次课程以《星际争霸II》回放文件分析为例,集中在IBM Cloud相关数据分析服务的应用。面对星际游戏爱好者希望提升技能的要求,我们使用IBM Data Science ...
分类:
其他好文 时间:
2018-01-02 01:25:10
阅读次数:
227
数据科学的基础概念 1数据 1.1数据模型 概念模型:用户视角—各种文档,业务流程图,er图等 逻辑模型:数据科学家视角—关系模型,层次模型,网状模型 key-value,key-document,key-column和图模型等,常用格式:关系表,csv,json,xml,rdf等 物理模型:机器视 ...
分类:
其他好文 时间:
2017-12-23 01:08:53
阅读次数:
258
深度学习框架哪家强:TensorFlow?Caffe?MXNet?Keras?PyTorch?对于这几大框架在运行各项深度任务时的性能差异如何,各位读者不免会有所好奇。 微软数据科学家Ilia Karmanov最新测试的结果显示,亚马逊MXNet在CNN、RNN与NLP情感分析任务上性能强劲,而Te ...
分类:
Web程序 时间:
2017-12-02 22:07:12
阅读次数:
387
微软已经发布了其 Visual Studio Tools for AI 的测试版本,这是微软 Visual Studio 2017 IDE 的扩展,可以让开发人员和数据科学家将深度学习模型嵌入到应用程序中。Visual Studio Tools for AI 工具同时支持 Microsoft 的 C ...
分类:
其他好文 时间:
2017-11-26 11:06:41
阅读次数:
272