推荐讲师
国内顶尖的数据库调优实战专家,现任Oracle公司研发中……
曾任职BEA(中国)资深软件架构师,十余年的企业软件架……
10余年国际、国内知名高科技企业研发实践和研发管理……

Hadoop大数据架构设计和spark实战

演讲嘉宾:徐老师 -
培训时间:2017年4月8—9号
培训地点:不限
培训费用:2680元/人
培训简介:
一、【课程重要性】
随着互联网、移动互联网和物联网的发展,特别是互联网+时代的到来,我们已经切实地迎来了一个大数据的时代。大数据处理对于未来的IT开发人员而言,已经成为一项必备的技能,但是要用好大数据,除了工具本身之外,还包括运维、优化、分布式等方面的知识,形成了全新的挑战,其中对大数据的分析与挖掘已经成为一个非常重要且紧迫的需求。
目前对大数据的分析工具,首选的是Hadoop平台。继Hadoop之后,Spark 以性能超Hadoop百倍,算法实现仅有其1/10或1/100, 星火燎原,正逐步加速成为大数据时代统一计算平台。但Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。为解决广大系统设计人员深入研究与开发大数据技术的需要,提高大数据在企业应用的能力,我培训中心特举办“Hadoop大数据架构设计和spark实战”高端课程。

二、【课程目的】
1、使客户了解大数据架构的架构搭建。数据源导入、数据分析流程、数据使用方案等问题,提升大数据架构设计知识理解。
2、介绍核心内容HDFS、MR、hive、Spark等核心架构与实际使用中的优化事项,提升技术能力与技术理解。
3、实际项目的架构分享,介绍现互联网行业大数据平台架构,与使用中的注意事项。
4、基于互联网行业应用案例,分享基于推荐系统的数据挖掘,(包括用户与用户的关系挖掘,用户与产品关系的挖掘,并介绍核心算法库)。

三、【课程解决问题】
主要希望帮助培训方解决的问题:
1、理解大数据平台的架构与各组件的使用场景。
2、核心的组件的架构设计与原理。
3、使用中的经验分享。
4、互联网行业的使用案例,使其帮助客户有大数据行业入门的思维,能够自行搭建大数据平台,完成一些数据对接与分析能力、并且提升对大数据平台的认识与理解。

四、【课程对象】
1、熟悉Hadoop生态系统,想更深入学习Hadoop在企业应用实战案 例的朋友;
2、系统架构师、系统分析师、高级程序员、资深开发人员;
3、牵涉到大数据处理的数据中心运行、规划、设计负责人;
4、国有商业银行、城市商业银行、保险、证券、基金、金融证券研究所等金融机构想要进一步提高大数据在企业应用能力的;
5、政府机关,移动和互联网等大数据来源单位的负责人;
6、高校、科研院所涉及到大数据与分布式数据处理的项目负责人。

五、【课程优势】 本课程的最大优势就是:
1、整个培训过程老师带着学员进行全程上机操作,因此要求每个学员带笔记本电脑。
2、整个过程老师带着学员进行全程上机操作外,学员会进行全程实战演练,并且在演练过程中会以银行实际项目案例为主。在演练过程中老师会进行不断的指导,使培训课程真正落地。

六、【主讲老师】

徐老师:现任国内某知名大型互联网公司大数据架构师,大数据技术总负责人。
国内资深的大数据智能分析和挖掘实战专家。 在加入此大型互联网公司之前徐老师曾在阿里、58同城、趋势科技、精诚集团等公司任职
徐老师具有10多年软件研发、其中6年大数据应用实战工作经验。在实际工作中历任软件工程师、项目经理、大数据架构师、大数据技术总负责人等职务,最难能可贵的是徐老师现在一直工作在互联网大数据架构和大数据应用的一线。
项目经验主要包括大型互联网、各大商业银行、电信、移动等领域大数据系统的研发与现场实践。
其他技术特长: 徐老师精通hadoop\hdfs\mapreduce\hbase\pig\zookeeper\mahout实现分布式存储和分析;
精通 Java、JSP、等J2EE相关技术、精通掌握面向对象思想;
精通PostgreSQL、ORACLE、MySql、Microsoft SQL Server数据库,PL/SQL;
熟练掌握HIBERNATE,iBatis等数据库持久层技术/J2EE设计模式;熟练掌握基于Spring\EJB框架;熟练掌握基于Struts\JSF\Struts2\Tiles等主流框架,MVC模式的Java Web编程;熟悉Sun Solaris Unix/Linux centos操作系统,特别是Unix/Linux命令行操作;熟悉从客户需求分析、系统设计到前后台的编码、测试、验收或产品化等一系列项目开发流程以及文档的编写。

、【课程大纲】
 
第一阶段:技艺篇 (1.5天Hadoop大数据架构设计+1天Spak实战)
1.5天大数据架构设计实战课程方案 
一、云计算
1.什么是大数据
2.大数据技术体系介绍
3.数据中心之数据收集
4.数据中心之数据清洗与转换
5.数据中心之数据仓库
6.经典的项目案例

二、大数据之分布式存储实战
1.分布式存储-HDFS
2.大数据的好处
3.大数据的核心架构
4.企业使用大数据的案例解析与现场演示
5.什么是分布式文件系统和HDFS
6.HDFS设计目标
7.HDFS的基本组件
8.HDFS架构图和工作原理
9.HDFS服务进程详解
10.HDFS的未来发展
11.NameNode详解
12.DataNode详解
13.HDFS副本备份策略 (上机练习)

三、分布式存储实战:
HDFS实战-命令行等使用
1.HDFS安装须知
2.HDFS命令行工具
3.启动、停止HDFS服务
4.如何查看HDFS日志
5.如何查看HDFS Web控制台
6.HDFS参数配置 (上机练习)

HDFS实战-Java API使用
1.Eclipse 开发环境介绍
2.HDFS 开发基本步骤
3.HDFS Java API详解 A.Configuration B.Path C.FileSystem D.Stream、IOUtils
4.HDFS Java API使用场景示例 5.FuseHDFS 6.WebHDFS RESTful API (上机练习)

四、大数据之分布式计算实战
1.什么是MapReduce
2.MapReduce服务
3.MapReduce服务
4.MapReduce作业执行流程
5.MapReduce错误处理机制
6.MapReduce高级特性
7.MapReduce任务调度
8.MapReduce任务调度 (上机练习)

五、分布式计算实战: MapReduce命令行使用
1.启动、停止MapReduce服务
2.查看MapReduce日志
3.查看MapReduce控制台
4.MapReduce参数配置

MapReduce 编程实战
1.MapReduce框架类库介绍
2.开发MapReduce程序步骤
3.WordCount流程分解
4.WordCount代码分析 (上机练习)

Hadoop IO 框架
1.为什么要学习Hadoop I/O框架
2.序列化
3.SequenceFile
4.MapFile
5.数据完整性
6.数据压缩 (上机练习)

六、大数据之数据仓库-Hive
1、什么是Hive?
2、Hive的架构原理
3、如何利用hive来建造数据仓库?
4、hive的使用
5、HQL的调优: (上机操作练习)

七、大数据之NOSQL-Hbase
1、什么是Hbase?
2、Hbase的架构原理
3、Hbase核心知识点 A.HBase列族与列 B.HBase时间戳 C.HBase物理模型 D.数据存储结构:LSM E.HBase Log F.HBase Filter
4、HBase安装
5、配置与优化:
6、表设计与相关参数 (上机操作练习)

八、大数据之资源管理-Yarn
1.Yarn 与MapReduce的不同
2.Yarn 原理与架构
3.Apache YARN基本框架
4.Apache YARN工作流程
5.Apache YARN设计细节
6.Yarn 核心技术模块原理解析 A.Yarn ResouceManager原理解析 B.Yarn NodeManager 原理解析 C.Yarn ApplicationMaster
7.MapReduce与YARN结合
8.如何与Yarn来结合
9.Yarn 配置及搭建 (上机练习)

九、大数据之分析脚本工具-Pig
1.Pig基础
2.使用Pig进行简单数据分析
3.使用Pig处理复杂数据
4.使用Pig分析处理多数据集
5.扩展Pig 6.Pig排错和优化 (上机练习)

十、数据安全
1、安全体系图
2、应用安全、数据安全
3、多级认证体系
4、产品安全思路
5、学员实际演练与老师现场指导。

十一、云计算运维体系
1、云计算运维体系架构图
2、服务可靠性
3、提高服务质量
4、降低服务成本
5、现场演示:实际项目中云计算运维体系架构图。

十二、练习:以实际项目案例为基础:
进行云计算分布式架构的设计思路和流程实际演练。 (此内容是本课程的重点内容,课程压轴大作,从而使云计算架构设计最终落地)
1天Spark实战课程方案 课程模块
课程主题 主要内容 :
模块一 Spark 运行架构和解析
1、Spark的运行架构
2、基本术语
3、运行架构
4、Spark on Standalone运行过程
5、Spark on YARN 运行过程
6、Spark运行实例解析
7、Spark on Standalone实例解析
8、Spark on YARN实例解析

模块二 Spark 监控和调优
1、Spark的监控
2、Spark调优

模块三 Spark 编程模型和解析
1、Spark的编程模型
2、Spark编程模型解析
3、RDD的特点、操作、依赖关系
4、Spark应用程序的配置

模块四 Spark scala编程
1、Scala基本语法
2、Scala开发环境搭建
3、Scala开发Spark应用程序

模块五 Spark Streaming原理和实践
1、Spark Streaming原理
2、Spark流式处理架构
3、DStream的特点
4、Dstream的操作和RDD的区别
5、Spark Streaming的优化
6、Spark Streaming实例
7、文本实例
8、网络数据处理

模块六 Spark SQL 原理和实践
1、Spark SQL原理
2、Spark SQL的Catalyst优化器
3、Spark SQL内核
4、Spark SQL和Hive
5、Spark SQL的实例和编程
6、Spark SQL的实例操作demo
7、Spark SQL的编程

模块七 Spark 源码研读
1、Spark源码研读
2、Spark源码下载和研读环境搭建
3、Spark Core介绍
4、SparkContext
5、Executor
6、Deploy
7、RDD和Storage
8、Scheduler和Task
9、Spark Examples

模块八 Spark应用 案例实战
1、基于spark日志分析
2、个性化推荐系统:带你揭开其神秘面纱
3、在线投放引擎
4、揭开淘宝点击推荐系统的神秘面纱
5、京东商城数据服务架构—实时计算平台

第二阶段:实战篇
大数据应用实战案例解析篇(半天)
课程模块 课程主题 主要内容:

模块一 经典数据挖掘案例解决方案
腾讯集团的腾讯社交好友分析图谱挖掘全过程案例解析:
社交化推荐系统概览 社交推荐算法库 社交图分析与系统的整合

模块二 移动互联网应用案例解决方案 某互联网行业的社交好友推荐系统案例全过程解析:
基于互联网行业的推荐系统概述 用户与用户之间的关系挖掘分析算法介绍 移动网关日志的的数据挖掘案例实现方案
好友与好友之间的关系图挖掘解析

模块三 互联网行业搭建推荐引擎系统案例解决方案 某互联网行业的推荐系统案例全过程解析:
基于互联网行业的推荐系统概述 互联网行业推荐系统的架构设计 推荐系统常用的算法模型介绍
推荐算法与线上业务的整合设计 数据挖掘中常用的经典方法 数据模型的评估与数据反馈
数据模型的优化原理分析 多模型多算法的整合与推荐评估(overfitting\underfitting、variance\bias 等多模型方法)

模块四 阿里数据挖掘的经典方法论 阿里数据挖掘的经典方法论与全过程解析:
数据收集的架构设计 数据仓库的统筹规划 数据挖掘的方法与调优 模型评估的整合 离线与在线的服务整合

模块五 某城市商业银行大数据应用案例详解 大数据架构详解 POS商户的分析和交易流水分析 架构:
Hadoop+Hive+Hbase+Storm 交易风险预测和实时营销 架构:Hadoop+Flume+Storm+Redis+Esper+Hbase

模块六 某国字头银行大数据应用案例详解 大数据架构详解 基于Hadoop的数据仓库 架构:Hadoop+Hive+Hcatalog+oozie
担保圈分析、资金链上下游分析 架构:Hadoop+Spark Graphx+Mllib+R 网址选择
架构:Hadoop+Hive+高德地图




                                                                  国软育诚(北京)信息科技有限公司
                                              电 话:010-68104951 联系人:安培雄 手机:15010101549
                                         E-mail:gryc_apx@skl-zg.com 网 址:www.grpx.org.cn/admin_hygcGRPX
                                                 办公地址:北京市西城区西直门外大街143号凯旋大厦A座