SHAP介绍 可解释机器学习在这几年慢慢成为了机器学习的重要研究方向。作为数据科学家需要防止模型存在偏见,且帮助决策者理解如何正确地使用我们的模型。越是严苛的场景,越需要模型提供证明它们是如何运作且避免错误的证据 关于模型解释性,除了线性模型和决策树这种天生就有很好解释性的模型意外,sklean中有 ...
分类:
编程语言 时间:
2021-03-04 13:17:06
阅读次数:
0
程序员书库(ID:CodingBook)猿妹编译链接:https://towardsdatascience.com/5-free-books-for-learning-python-for-data-science-87be443c084Python仍然是数据科学家最流行的编程语言,因为Python的语法相对简单,容易上手,而且还有一个非常活跃的开发者社区,除了那些用于机器学习的库之外,还维护着大
分类:
编程语言 时间:
2020-12-22 13:08:08
阅读次数:
0
图源:pixabay数据科学领域在过去20年经历了巨大的变革。其发展是惊人的,每个人都深受影响。前几年,每个计算机科学专业的学生都渴望得到数据科学领域的职位,甚至许多其他教育背景的人也被数据科学所深深吸引着。数据科学的应用程序覆盖了所有行业,与此同时也无疑增加了对数据科学家的需求。但是如今趋势正在变化。对数据科学家的需求大不如前。即使有此需求,那些人要么缺乏技能,要么缺乏经验。为何数据科学失去了自
分类:
其他好文 时间:
2020-12-22 11:42:56
阅读次数:
0
图源:pixabay作为一切科学的基础,数学在数据科学领域也占据着重要地位。如果你是一名数据科学爱好者,一定想过这些问题:·我可以在几乎没有数学背景的情况下,成为一名数据科学家吗?·在数据科学中,哪些基本的数学技能是重要的?有很多好用的包可以用来构建预测模型,或生成数据可视化。一些最常用的描述性分析和预测性分析包包括:Ggplot2、Matplotlib、Seaborn、Scikit-learn、
分类:
其他好文 时间:
2020-12-22 11:40:33
阅读次数:
0
图源:unsplash“互联网上有很多数据”,这么说太保守了。事实上,2020年,“数字宇宙”预计将拥有40万亿字节或40泽字节(zettabytes)的信息,一个泽字节拥有的数据足以填满大约五分之一曼哈顿大小的数据中心。可供分析的信息如此之多,将收集数据的任务留给AI就显得合情合理了。网络机器人能以令人难以置信的速度抓取网页,提取所需的相关信息。不过,尽管许多数据科学家和营销人员以一种完全合乎伦
分类:
Web程序 时间:
2020-12-21 11:49:25
阅读次数:
0
创业过5家大数据公司,Kaggle竞赛冠军:互联网深度学习误区—花大力气在那些影响力很小的事情上本文作者:GregoryPiatetsky,KDnuggets.我对有着“摇滚明星”美誉的数据科学家杰里米·霍华德进行了独家采访,他谈到了自己最新出品的深度学习网络课程,Kaggle因何获得行业领先地位,以及数据科学家的价值所在。杰里米·霍华德(@jeremyphoward),是数据科学领域的“摇滚明星
分类:
其他好文 时间:
2020-11-07 15:39:15
阅读次数:
23
在数据管理领域,我们一直致力于让数据为我们提供价值,为此我们付出大量的努力和投入。在过去二十年,各大企业都在着手搭建数据仓库。当我们费尽艰辛搭建好数据仓库并成功用于线上运行时,发现我们将花费更多时间为数据科学家、分析师做数据准备。分析他们的数据需求,提供闪闪发光的数据报表。这将占用数据维护人员80%的时间投入,这个投入是偏高的,包含如沟通、反查、校正等大量重复和不必要投入。如何提升数据管理能力?我
分类:
其他好文 时间:
2020-09-23 23:53:26
阅读次数:
38
大数据文摘出品来源:medium编译:李雷尽管关于这个话题的文章不计其数,但文本作者想要找寻那种为大部分数据科学家所用而又有特色的工具及其认证。这些认证有的是免费的,有的比较便宜,但都值得尝试。不过,这还是要取决于你在数据科学领域的关注重点和发展方向。在数据科学从业的道路上,每个人想要获得证书的原因有很多;有的证书可能很直白,例如数据科学证书,有的可能没那么直白,例如Python编程证书。随着课堂
分类:
其他好文 时间:
2020-09-03 16:37:11
阅读次数:
48
在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。今天给大家介绍10个最强的数据挖掘工具,欢迎小伙伴们收藏起来。1.KNIMEKNIME可以完成常规的数据分析,进行数据挖掘,常见的数据挖掘算法,如回归、分类、聚类等等都有。而且它引入很多大数据组件,如Hive,Spark等等。它还通过模块化的数据流水线概念,集成了机器学习和数据挖掘的各种组件,能够
分类:
其他好文 时间:
2020-08-24 16:32:14
阅读次数:
59