收集前人的经验。加速学习,解决工作中的难题。一、代码优化(包括sql语句的优化), 合理的使用索引,避免整表查询。二、日常海量数据处理我用文件缓存,文件缓存分两种,第一种是最常见的生成html静太文件,除非数据有变动不然是不会查询数据库,其次.html文件更容易被搜索引擎收录,生成静太缓存也是有讲究...
分类:
Web程序 时间:
2015-03-12 22:08:30
阅读次数:
131
DMP(数据管理平台)帮助广告主获得可行动的洞察 在数字广告领域,大数据和数据管理平台(DPMs)仍大有可为。DMPs让广告主可以使用他们的大数据来做出更灵活更有效的营销决策。 数据管理和分析是业界挑战 即便在品牌使用大数据来对他们的潜在和现有客户进行画像时,多数品牌会发现从数据中抽取跨渠道的...
分类:
其他好文 时间:
2015-03-11 12:25:24
阅读次数:
109
Nosql简介1.1系统对数据的需求 Nosql[Nosql主要用途大数据处理]的全称为”not only sql”,为非关系型数据库[非关系型数据库就是关系型数据库的所有特点都没有了,主外键,约束也没有了,sql语句也没有了。]。这类数据库的主要特点是:非关系型、分布式、开源的、水平可扩展的。No...
分类:
数据库 时间:
2015-03-10 13:50:45
阅读次数:
163
这个视频介绍了目前非常流行的大数据处理框架Hadoop的Windows Azure上的实现:HDInsight,以及利用MapReduce来对大数据进行分析,利用Hive进行查询,利用客户端PowerBI, PowerQuery对结果进行展示等过程。 讲的通俗易懂,实乃Hadoop大数据处理最佳入...
anaconda内部集成ipython、scipy和numpy基本都齐了,很好用!下载地址http://pan.baidu.com/s/1o6OEPIipython大数据处理模块pandas由scipy和numpy组成,这核心模块都在anaconda里预装了
分类:
编程语言 时间:
2015-03-04 06:22:36
阅读次数:
229
Pivotal Pivots 开源大数据处理的核心组件Pivotal 今天宣布将其大数据套件的三个核心组件开源,同时商业版本继续提供更高级特性和商业支持服务。这三个开源的组件分别是:GemFire 内存中 NoSQL 数据库HAWQ 大规模并行 SQL 分析处理引擎Greenplum DB 大规模并...
分类:
其他好文 时间:
2015-02-24 12:34:07
阅读次数:
151
简述:Hadoop是最著名使用最广泛的分布式大数据处理框架,它是用Java开发的。 物理主机、虚拟机、虚拟主机这三个就不多说了。我们先在ubuntu里添加一个叫hadoop的用户 ?1:安装jdk? 下载jdk:?jdk-7u75-linux-...
分类:
其他好文 时间:
2015-02-13 08:11:22
阅读次数:
147
适合初学入门
第一课 构造数据
本节基本了解Pandas里的一些数据结构和模块的基本使用,初步了解Pandas的提供的一些功能,学会基本使用。
创建数据
通过Python的zip构造出一元组组成的列表作为DataFrame的输入数据rec。
In [3]: import pandas as pd
In [4]: import random
In [5]: num ...
分类:
编程语言 时间:
2015-02-09 14:10:00
阅读次数:
326
中国大数据技术大会首日全体大会上,腾讯数据平台部助理总经理蒋杰发表了题为《大数据处理的规模化与实时化演进 》的演讲。他分享了大数据技术在腾讯的实践,其中包括基于Hadoop的平台TDW、实时数据收集系统TDBank以及基于Storm的流处理系统TRC。同时,蒋杰还透露,腾讯将在12月开源内部的Had...
分类:
其他好文 时间:
2015-02-09 12:47:57
阅读次数:
177