Big Data on AWS
AWS Training
概述
Big Data on AWS 课程将向您介绍基于云的大数据解决方案,例如 Amazon Elastic MapReduce (EMR)、Amazon Redshift、Amazon Kinesis 和其余 AWS 大数据平台。在本课程中,我们会演示如何使用 Amazon EMR 通过各种 Hadoop 工具(例如 Hive 和 Hue)处理数据。授课内容还包括如何创建大数据环境、如何结合使用 Amazon DynamoDB、Amazon Redshift、Amazon QuickSight、Amazon Athena 和 Amazon Kinesis 以及如何利用最佳实践来设计大数据环境,从而实现安全性和经济性。
如需私人课程,请致电(021)20260808 联系我们。
课程目标
本课程将向您讲授如何:
- 适用大数据体系内的 AWS 解决方案
- 在 Amazon EMR 环境中使用 Apache Hadoop
- 识别 Amazon EMR 集群的组件
- 启动和配置 Amazon EMR 集群
- 使用 Amazon EMR 的常用编程框架,包括 Hive、Pig 和 Streaming
- 利用 Hue 提高 Amazon EMR 的易用性
- 在 Amazon EMR 上借助 Spark 使用内存分析
- 选择适当的 AWS 数据存储选项
- 确定使用 Amazon Kinesis 以近乎实时的速度处理大数据的优势
- 使用 Amazon Redshift 高效地存储和分析数据
- 理解和管理大数据解决方案的成本和安全
- 认识用于获取、传输和压缩数据的选项
- 使用 Amazon Athena 进行临时查询分析
- 利用 AWS Glue 实现 ETL 工作负载自动化。
- 借助 Amazon QuickSight 使用可视化软件描述数据和查询
- 利用 AWS Data Pipeline 编排大数据工作流
申请条件
我们建议符合以下前提条件的人员参加此课程:
- 基本熟悉大数据技术,包括 Apache Hadoop、HDFS 和 SQL/NoSQL 查询。
- 学员应完成Big Data Technology Fundamentals 网络培训或具备同等经验。
- 具有核心 AWS 服务和公有云实施工作经验。
- 学员应完成AWS Essentials 课程或拥有同等经验。
- 对数据仓库、关系数据库系统和数据库设计的基础知识有所了解。
培训对象
本课程面向:
- 负责设计和实施大数据解决方案的个人,即解决方案架构师和系统操作管理员。
- 有意了解 AWS 大数据解决方案的数据学家和数据分析师。
授课方式
本课程将结合采用以下方式授课:
- 讲师指导培训
- 动手实验
动手实践活动
您可以通过本课程提供的各种实践练习来测试新的技能并将所学到的知识应用到您的工作环境中。
课程大纲
本课程每天涵盖以下概念:
第 1 天
- 大数据概述
- 摄取
- 大数据流式处理和 Amazon Kinesis
- 使用 Kinesis 流式处理和分析 Apache 服务器日志
- 存储解决方案
- 使用 Amazon Athena 查询大数据
- 使用 Amazon Athena 来分析日志数据
- Apache Hadoop 及 Amazon EMR 简介
第 2 天
- 使用 Amazon Elastic MapReduce
- 在 DynamoDB 中存储和查询数据
- Hadoop 编程框架
- 在 Amazon EMR 上利用 Hive 处理服务器日志
- 利用 Hue 简化您的 Amazon EMR 体验
- 在 Amazon EMR 上的 Hue 中运行 Pig 脚本
- Amazon EMR 上的 Spark
- 使用 Amazon EMR 上的 Spark 处理纽约出租车数据集
第 3 天
- 使用 AWS Glue 实现 ETL 工作负载自动化
- Amazon Redshift 和大数据
- 大数据的可视化及编制
- 可视化
- 管理 Amazon EMR 成本
- 确立大数据解决方案
- 大数据设计模式