第一课

时间：2020-02-20 20:18:46 阅读：52 评论：0 收藏：0 [点我收藏+]

标签：腾讯 var 人际关系成熟 scala 代码就是即时通讯错误

1.课程目标

实践性

2.课下需要

在家搭建一个伪分布式

3.大数据概念和意义

08年Nature第一次正式提出大数据概念

常规的数据库：结构化的数据库

TB级的结构化数据管理就很困难，需要分布式

当数据处理不完时一般两个方法：

1.改成多节点，分布式

2.对硬件的提升，比如一个cpu不行2个，服务器不行，再加服务器

大数据的4V

-价值高Value 价值密度低

-体量大Volume

-速度快Velocity

这边产生数据，那边就要出现分析，处理。比如热搜，需要用实时框架，根据每天产生的速度得出来的。比如双11交易额，也用实时的。比如体育频道大数据的解说，足球的进球方式，足球的惯用脚这种。

-种类多Variety

来源广，维度多

在家直播平台很多，现在活下来的基本都和阿里和腾讯有关。做的即时通讯第一大厂，就是腾讯，所以腾讯会议比较稳定。同样一个直播，直播来源就很广（各种平台）。

维度多，是指比如直播时可以共享屏幕，可以全体点名。

大数据的技术支撑

硬件：CPU（单位计算力）和存储的价格在降低

软件：像mapreduce这种并行分布式计算的框架比较成熟。

大数据最前沿是数据科学（大数据+人工智能），通过数据来知道对未来的规律

大数据需要加人工智能的手段。比如通过通讯录，知道人际关系网等等

课堂练习

大数据平台不一定要部署到云计算平台，只是部署在云计算平台效用更高。因为大数据有时需要很多很多的服务器同时并行。

云计算商业化程度高。大数据刚开始都是在裸机上跑。

大数据部署在裸机上运行效率更高，自己在家里可以装双操作系统。

不是说部署在在云计算上更快，而是效用更高。比如算天气的数据，就直接买云计算的服务，让它直接跑数据，而不用自己买大量的机器，用较少的钱（相比自己买机器）租赁完云计算后再还回去。云计算厂商还可以租赁给其他人。

计算：

哈哈哈哈哈老师现在说，非计算机专业特别喜欢讲数据清洗

一般把数据清洗弄成数据质检，过一遍数据，剔除掉错误的数据

海量数据到产生价值，期间通过存储，清洗，挖掘，分析等

存储和清洗是数据的预处理环节

挖掘分析是在找规律

分布式系统基础架构Hadoop的出现，为大数据带来了新的曙光
HDFS为海量的数据提供了存储
MapReduce则为海量的数据提供了并行计算，从而大大提高了计算效率

HDFS的强项是对海量数据进行管理

HDFS和MapReduce是Hadoop的两大支柱

其他技术：Spark，Storm，Implala，SCALA（相比MapReduce可以写更少的代码）

智能：机器拥有理解数据的能力

河南省第一个智能数据中心就在我们院

让装备具有智能化

阿尔法狗战胜李世石

医学图像，通过海量数据进行训练，看看骨头有没有问题。

人工智能的算法越来越成熟，所以很流行。

对抗神经网络：通过拍很多人的照片，可以生成一个新的人脸，这个人脸是之前没有出现过的

第一课

标签：腾讯 var 人际关系成熟 scala 代码就是即时通讯错误

原文地址：https://www.cnblogs.com/yinghao_zhu/p/12337018.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行