Google Professional Data Engineer(PDE)考试

时间：2019-02-10 10:45:21 阅读：333 评论：0 收藏：0 [点我收藏+]

技术图片

在国内参加PDE考试的人比较少，导致资料也很少。我在19年1月30号去上海参加PDE考试，参加前也是完全没底，因为时间短资料少，但幸运的是顺利通过了。回过头来看，其中有些技巧和重点，在此做一些总结，希望可以给参加PDE考试的同学提供一些帮助。

收获

1）对云有新的认识
2）对大数据架构、机器学习架构设计有新的认识
3）当然最重要的是获得google官方发的证书

说说我的准备

1）花了5周的时间看完google官方提供的视频，几乎是完全脱产（只做一些事故处理）。
2）试做官方提供example，一共20道题，我错了五道。我错的主要是安全和BigTable相关的。
3）google的同学建议是看concept的相关内容，但离考试也就剩三四天了，不可能详细复习，concept是一定看不完的。那么就针对没有掌握的知识进行复习，安全相关的官方视频是没有涉及的，所以必须自己找资料看，别的资料也没有，就只能看concept中涉及安全的方便，这个比较少，最多一天就全部看完。BigTable看来我也是掌握不好，那么我就看BigTable的concept知识。
4）看完上面的就参加考试了，也再没做特别复习。

整体来看

google的产品大致涉及存储（cloud storage、SQL、spanner、memory、BigTable、datastore）、消息中间件Pub\Sub、计算（dataproc、BigQuery、Dataflow）、机器学习ML Engine、API、DataLab以及可视化。各个产品的使用场景必须心里有数，如果看完视频忘了，必须重新复习，最好和开源对应起来，因为开源多多少少有点儿了解，不要从头学习google cloud所有产品知识。
技术图片

思维转变

把自己定位为产品解决方案工程师，不是找最优解，而是找最适合案例的解决方案。

产品详情

Cloud SQL & spanner

Cloud SQL 就是mysql\postsql的单机版，google帮你做了安装部署和管理（安全、备份等），如果需要水平扩展就是spanner了，而且支持事务，这两个产品的应用场景就是应用交易记录等。

cloud storage

就是存储引擎，什么都可以放，没有大小文件、结构化和非结构化的限制，利用好存储级别（正常、nearline（月级访问）和cold（年级访问））可以节约成本。

BigTable

考试重点。注意key值的设置，如何避免热点问题，时间序列的问题大部分就是选BigTable存储，BigTable适用于时延性要求高的场景。

datastore

类似于mongodb，通过属性来查询，不是重点。

BigQuery

考试重点。注意安全和视图相关知识，数据存储在BigQuery和存储在cloud storage的价钱差不多，根据使用情况，会自动处理存储介质，降低价格，一定要合理利用BigQuery。

Dataproc

主要是为了适应客户原来使用hadoop堆栈，现在不像修改代码，就像上云的场景。

dataflow

是google大力推进的产品，是替代Dataproc的下一代计算引擎，实现自动扩缩容，并且流处理和批处理代码保持一致。题外话：dataflow和bigquery（秒级响应）是google大数据方面两大杀伤性武器，区别于其他云的地方。

Pub\Sub

Pub\Sub和dataflow配合使用处理事件流，延时性要求高选用BigTable存储，不高选用BigQuery。

ML Engine

tensorflow的云化版，实现离线训练和在线服务的自动化，配合dataprep可以实现离线数据的预处理，datalab（jupyter notebook）实现数据探索和离线训练。

Auto ML

Auto ML是为了丰富API，容许用户自己提供数据，对模型进行训练。

综述

其实知识点也不那么难，最后难得可能是英语这一关，视频和考试全英语。祝大家顺利通过考试。

如果有疑问欢迎关注下面公众号进行交流。

技术图片

Google Professional Data Engineer(PDE)考试

标签：bfc 总结知识 flow 收获自己 line 备份级别

原文地址：https://www.cnblogs.com/jacksu-tencent/p/10358662.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行