大数据分析(Hadoop)与云计算实践培训班
一、课程目标
本课程以大数据架构与案例为驱动,采用一个完整地案例贯穿整个课程,让学员体验大数据架构的企业价值。在课程中学员将被赋予企业架构师角色,通过剖析企业对大数据的主要需求,使学员感悟大数据架构设计的过程与价值。具体课程目标包括:
1. 全面掌握Hadoop的架构原理和使用场景;
2. 全程项目实战训练;
3. 彻底掌握使用Hadoop进行MapReduce程序开发;
4. 熟悉分布式计算领域的常用算法;
5. 掌握Hive、HBase使用与优化技巧。
6. 了解云计算的发展历史
7. 掌握云计算的实践应用
8. 学习云计算的核心技术
9. 通晓云计算的商业价值。
二、培训师资
钱兴会 大数据专家。在电信、电力、金融行业从事Java开发和架构设计的工作;资深云计算研发工程师。作为项目的主要成员和负责人参与并领导完成了多个大型复杂项目,并成功应用于行业解决方案,如海量数据匹配系统、电力行业实时数据采集分析系统等。设计并实现了实时索引系统-云搜,成功应用与某国企知识库系统。并可应用与互联网行业的搜索等应用。完成多个云计算解决方案的架构,涉及到金融韩行业海量数据分析与数据处理系统、海量日志分析系统、电力用电信息统计系统等,获得业界认可。
朱永春 十余年IT行业经验,IBM企业数据分析与大数据专家,数据中心系统架构设计,性能管理与容量评估专家,主要专业特长包括基础架构云平台设计、服务器及存储虚拟化、数据库优化、性能管理、容量评估等领域。具有丰富的教学和实践经验,对IT职业培训有深刻的理解。曾参与多家大型银行系统架构设计,在高可用性高性能大容量系统领域的虚拟化和大数据处理有深入的研究,能够结合实际,在复杂的应用环境中选择适合的分析技术来降低运维风险、缩短停机时间、提高系统及数据库性能。多次全国巡讲。授课过程理论与实践并重,深入浅出,讲课诙谐幽默、气氛活跃,深受广大学员好评。
三、学习对象
软件工程师、数据库开发人员、网络后台开发人员、运维人员;地方政府云计算物联网产业负责人;各地云计算中心负责人;云计算物联网产业规划负责人;云计算产业投资团队;云计算应用开发商;云计算硬件设备提供商;云服务运营服务提供商;高校、科研院所云计算项目负责人。
四、课程大纲
(第一专题:大数据分析与Hadoop开发)
日程 |
模块单元 |
模块单元 |
第 一 天 |
第1个主题:Hadoop的来源和动机 1.传统大规模系统存在的问题 2.对一种新的解决方案的需求 3.Hadoop应用案例解析 4.Hadoop 版本介绍 5.Hadoop与传统分布式环境的区别
第2个主题:Hadoop安装和部署准备 1. Hadoop系统模块组件概述 2. Hadoop试验集群的部署结构 3. Hadoop 安装依赖关系 4. Hadoop 生产环境的部署结构 第3个主题:Hadoop集群安装和部署 第4个主题:Hadoop组件详解 1. Hadoop HDFS 基本结构 2. Hadoop HDFS 副本存放策略 3. Hadoop NameNode 详解 4. Hadoop SecondaryNameNode 详解 5. Hadoop DataNode 详解 6. Hadoop JobTracker 详解
|
5.Mapper 6.Reducer 7.API 使用Eclipse进行快速开发 8.新MapReduce API 第4个主题:Hadoop 核心代码剖析 1. Hadoop Mapper 类核心代码剖析 2. Hadoop Reducer 类核心代码剖析 第5个主题:HDFS分布式文件系统编程 1. Hadoop HDFS 剖析 2. Hadoop NameNode 剖析 3. Hadoop DataNode 剖析 4. hadoop I/O 操作 5. 使用Hadoop HDFS API对HDFS编程 第5个主题
|
第 二 天 |
第1个主题:Hadoop MapReduce 1. Hadoop JobTracker 剖析 2.Hadoop TaskTracker 剖析 3.Hadoop 任务提交流程剖析 第2个主题: Hadoop MapReduce Streaming编程 1. Hadoop Streaming 和 Java MapReduce Api差异 2. 使用 MapReduce 实现数据库功能 第3个主题:MapReduce分布式程序 1. MapReduce流程 2.剖析一个MapReduce程序 3.基本MapReduceAPI 概念 4.驱动代码 第4个主题:Hadoop Mapreduce高级编程 1.ToolRunner介绍 2.使用MRUnit进行测试 3.利用Combiners来减少中间数据 4.使用Configure和Close方法来进行Map/Reduce设置和关闭 5.编写Partitioner来优化负载平衡 6.直接访问Hadoop分布式文件系统(HDFS) 7.使用分布式缓存(Distributed Cache)
|
第5个主题:MapReduce的优化 1. map优化 2. reduce优化 3. 小文件优化
第6个主题:MapReduce的任务调度 1. Queue调度的使用 2. 公平调度的使用 3. 能力调度的使用
第7个主题Hadoop 生态系统介绍 分布式管理组件-Zookeeper 分布式数据仓库-Hive 分布式数据库-HBase 数据导入导出-Sqoop 工作流管理- Ozzie Hadoop数据仓库-Hive Hive基础 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系;Hive与传统数据库的对接使用 Hadoop/Hive仓库数据数据流
|
第 三 天 |
Hadoop数据仓库-Hive
Hive Cli 的基本用法 HQL基本语法 自行编写数据库与Hadoop相互ETL工具的思路
|
Hadoop 分布式数据仓库-HBase Hbase概念与架构 hbase核心知识点 hbase安装、部署 HBase配置优化综述 表设计优化相关参数 监控工具使用方法及注意事项 常见异常现象级处理方法 |
(第二专题:大数据与云计算架构)
日程 |
授课主题 |
课程安排 |
|
第 四 天
|
云计算概述 |
云的理想 云的挑战 发展的趋势 云是什么 不同工作负载适用不同的云 选择合适的云平台 几个云应用案例 我们身边的云 |
|
云架构 |
云多层架构视图 IaaS、PaaS与SaaS的定位与异同 云平台的发展现状 云数据中心技术架构 |
||
IAAS云层的原理与应用 |
IaaS的基础:虚拟化 虚拟化相关技术 Power云部署方案介绍 VMWare云部署方案介绍 OpenStack云部署方案介绍 SONAS云存储方案介绍 应用实例 |
||
第 五 天
|
PaaS云层的原理与应用 |
PaaS的架构原理 基于WebSphere的PaaS设计实践 |
|
SaaS云层的原理与应用 |
SaaS的架构原理 一个公有云SaaS的设计实践 |
||
云计算的性能管理与容量规划 |
什么是性能容量管理 性能容量管理参考案例 压力测试基本理论 系统性能设计与调优 |
||
第 六 天 |
大数据云的原理与架构 |
存储子系统 传统文件系统 松耦合网络文件系统 共享存储文件系统 基于对象的存储子系统 大数据存储子系统 Google GFS Facebook Haystack Amazon Dynamo Yahoo PNUTS Google BigTable 云存储服务 Amazon Simple Storage Service Google Storage for Developers |
|
|
|
|
|
六、培训证书
本课程颁发双证,证书查询:www.ncie.gov.cn;www.zpedu.org
1、工业和信息化部人才交流中心颁发的《全国信息化工程师》证书。
证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。
七、培训费用
培训费4500元单项、8800元两项(含培训费、场地费、考试费、证书费、午餐),食宿可统一安排,费用自理。请学员提交二寸蓝底彩照2张(背面注明姓名)身份证复印件1张。