码迷,mamicode.com
首页 >  
搜索关键字:大型数据集    ( 104个结果
numpy pandas1
数据分析绝对绕不过的三个包是numpy、scipy和pandas。numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效。scipy是基于numpy的科学计算包,包括统计、线性代数等工具。pandas是基于numpy的数据分析工具,能更方便的操作大型数据集。后续的章节主要 ...
分类:其他好文   时间:2019-12-01 13:40:20    阅读次数:103
MongoDB: 分片sharding
分片(sharding)是MongoDB用来将大型数据集合分到散不同服务器使用的方法, 这样不需要功能强大的服务器就能够存储更多的数据和处理更大的负载. 基本思想就是将集合切成小块,这些块分散到若干片里,每个片只负责总数据的一部分,最后通过一个均衡器来对各个分片进行均衡(数据迁移. 通过一个名为mo ...
分类:数据库   时间:2019-12-01 09:22:47    阅读次数:83
五个技巧助力优化大数据分析
近年来越来越多的公司已经意识到数据及数据分析可带来的价值,并且已经跳上了大数据旅行车。实际上,现在所有的一切都在被监控和测量,创造了大量的数据流,通常比公司可以处理的速度更快。问题是,根据定义,大数据很大,因此数据收集中的小差异或错误可能导致重大问题,错误信息和不准确的推论。有一些技术可以优化您的大数据分析,并最大限度地减少可能渗入这些大型数据集的“噪音”。以下是五个技术技巧做参考:一、优化数据收
分类:其他好文   时间:2019-10-20 09:13:35    阅读次数:81
Pandas 简介
Pandas 简介 pandas 是 python 内基于 NumPy 的一种工具,主要目的是为了解决数据分析任务。Pandas 包含了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 学习 pandas 需要主要掌握的技能包括 1. 汇总和计算描述统计,处理缺失数据 ,层次化索引 ...
分类:其他好文   时间:2019-10-02 23:03:32    阅读次数:96
好程序员大数据学习路线Hadoop学习干货分享
好程序员大数据学习路线Hadoop学习干货分享,ApacheHadoop为可靠的,可扩展的分布式计算开发开源软件。ApacheHadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:HadoopCommon:支持其他Hadoop模块的常用工具。Hadoop分布式文件系统(HDFS?):一种分布式文件系统,可提供对应用程序数据的高吞吐量
分类:其他好文   时间:2019-08-27 17:06:02    阅读次数:85
Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations
一、简单聚合 1.1 数据准备 注:emp.json 可以从本仓库的 "resources" 目录下载。 1.2 count 1.3 countDistinct 1.4 approx_count_distinct 通常在使用大型数据集时,你可能关注的只是近似值而不是准确值,这时可以使用 approx ...
分类:数据库   时间:2019-08-14 09:29:19    阅读次数:202
Hadoop大数据分析应用场景
J 为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。 一、Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及 ...
分类:其他好文   时间:2019-04-23 15:43:25    阅读次数:177
Spring Boot整合Elasticsearch
Spring Boot整合Elasticsearch Spring Boot整合Elasticsearch Elasticsearch是一个全文搜索引擎,专门用于处理大型数据集。根据描述,自然而然使用它来存储和搜索应用程序日志。与Logstash和Kibana一起,它是强大的解决方案Elastic  ...
分类:编程语言   时间:2019-04-11 16:35:32    阅读次数:1961
python pandas
1.pandas有啥用 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高 ...
分类:编程语言   时间:2019-04-10 18:02:20    阅读次数:118
Redis数据库介绍
1.Redis数据库介绍 Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 2.Redis数据库特性 Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用。 Redis不仅 ...
分类:数据库   时间:2019-03-17 23:07:17    阅读次数:228
104条   上一页 1 2 3 4 5 6 ... 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!