爬虫 定义与发展 为什么要做爬虫 首先请问:都说现在是“大数据时代”,那数据从何而来? 企业产生的用户数据: "百度指数" 、 "阿里指数" 、 "TBI腾讯浏览指数" 、 "新浪微博指数" 数据平台购买数据: "数据堂" 、 "国云数据市场" 、 "贵阳大数据交易所" 政府/机构公开的数据: "中 ...
分类:
其他好文 时间:
2018-09-06 22:52:13
阅读次数:
194
云端的崛起是IT行业的必然趋势,所以各个企业或者组织都会将原有的数据平台迁移到Office365中,从企业cost角度而言,会降低一些OnPremise服务器的维护成本和IT运维支出,但从数据安全和备份角度而言,就需要企业决策者考虑周全:OnPremise产品可以针对DB级别进行Full+Incremental备份,那么云端该如何考虑才能满足企业的SLA标准呢?今天抛出这个话题,也是源于近半年来一
分类:
其他好文 时间:
2018-09-06 16:27:38
阅读次数:
221
注:本文首发于袋鼠云公众号 2016.1.20,阿里云在云栖大会上海站的主题是DT World,这是一场规模宏大的大数据产品的发布会。发布的近20款产品, 几乎都出自阿里巴巴一个存在已久的团队:数据平台事业部,从2015年初开始变成了阿里云数据事业部。这个团队存在有多久?可以说比阿里云本身还要久。这 ...
分类:
其他好文 时间:
2018-09-04 13:57:45
阅读次数:
275
前言 本文适合已经初步了解 Ambari 的读者。对 Ambari 的基础知识,以及 Ambari 的安装步骤还不清楚的读者,可以先阅读基础篇文章《Ambari——大数据平台的搭建利器》。 Ambari 的现状 目前 Apache Ambari 的最高版本是 2.0.1,最高的 Stack 版本是 ...
分类:
其他好文 时间:
2018-08-23 20:08:44
阅读次数:
262
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数 ...
分类:
其他好文 时间:
2018-08-21 16:02:11
阅读次数:
225
使用CSV传递文件给大数据平台入HIVE时,经常会遇到字段里面有分隔符,在Oracle等传统关系型数据中可以直接指定双引号为一个字段,但是Hive好像不行,所以需要将非引号中的逗号替换为其他分隔符进行入库
分类:
其他好文 时间:
2018-08-13 23:45:19
阅读次数:
182
1、思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。 2、除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapRedu ...
分类:
其他好文 时间:
2018-08-12 14:16:13
阅读次数:
126
Redis在互联网大数据平台有着广泛的应用,主要被用来缓存热点数据,避免海量请求压垮数据库,同时可以提升服务节点的响应速度和并发量。随着数据量的增多,由于redis是占用单台物理机或虚机的内存,内存资源是有限的,要动态地扩容缩容,就需要用到redis集群。redis集群的架构方案经历了一系列演变和改 ...
分类:
其他好文 时间:
2018-08-03 16:32:05
阅读次数:
152
《面向应用于社会TV分析的应用了SDN的大数据平台》 Abstract social TV analytics 是什么,就是说很多TV观众在微博、微信和推特等这些地方分享他们的观感时,然后有人就对这个进行挖掘分析,这就被称作social TV analytics。不仅如此,这些人还将大数据研究运用进 ...
分类:
其他好文 时间:
2018-07-30 14:44:26
阅读次数:
165
美团配送自成立以来,业务经历了多次跨越式的发展。业务的飞速增长,对系统的整体架构和基础设施提出了越来越高的要求,同时也不断驱动着技术团队深刻理解业务、准确定位领域模型、高效支撑系统扩展。如何在业务高速增长、可用性越来越高的背景下实现系统架构的快速有效升级?如何保证复杂业务下的研发效率与质量?本文将为... ...
分类:
其他好文 时间:
2018-07-27 12:05:43
阅读次数:
132