推荐讲师
国内顶尖的数据库调优实战专家,现任Oracle公司研发中……
曾任职BEA(中国)资深软件架构师,十余年的企业软件架……
10余年国际、国内知名高科技企业研发实践和研发管理……

Hadoop数据分析与挖掘实战Spark实战高端课程

培训时间:4月8—9日
培训地点:北京
培训费用:2680
培训简介:
【课程背景】
        随着互联网、移动互联网和物联网的发展,我们已经切实地迎来了一个大数据的时代。大数据处理对于未来的IT开发人员而言,已经成为一项必备的技能,但是要用好大数据,除了工具本身之外,还包括运维、优化、分布式等方面的知识,形成了全新的挑战,其中对大数据的分析与挖掘已经成为一个非常重要且紧迫的需求。
        目前对大数据的分析工具,首选的是Hadoop平台。继Hadoop之后,Spark 以性能超Hadoop百倍,算法实现仅有其1/10或1/100, 星火燎原,正逐步加速成为大数据时代统一计算平台。但Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。为解决广大系统设计人员深入研究与开发大数据技术的需要,提高大数据在企业应用的能力,我培训中心特举办“Hadoop数据分析与挖掘实战”和“Spark实战”两门高端课程。
【课程对象】
 1、云计算大数据从业者,想要进一步提高大数据在企业应用能力的;
 2、熟悉Hadoop生态系统,想更深入学习Hadoop与Spark整合在企业应用实战案例的朋友;
 3、系统架构师、系统分析师、高级程序员、资深开发人员;
 4、牵涉到大数据处理的数据中心运行、规划、设计负责人;
 5、政府机关,金融保险、移动和互联网等大数据来源单位的负责人;
 6、高校、科研院所涉及到大数据与分布式数据处理的项目负责人;
【课程优势】
     本课程的最大优势就是:
     1、整个培训过程老师带着学员进行全程上机操作,因此要求每个学员带笔记本电脑。
     2、整个过程老师带着学员进行全程上机操作外,学员会进行全程实战演练,并且在演练过程中会以实际项目案例为主。在演练过程中老师会进行不断的指导,使培训课程真正落地。
【课程大纲】
      “Hadoop数据分析与挖掘实战”课程内容
课程模块 课程主题 主要内容 案例和演示
模块一 Hadoop组件详解 1、Hadoop HDFS 基本结构
2、Hadoop HDFS 副本存放策略
3、Hadoop NameNode 详解
4、HadoopSecondaryNameNode详解
5、Hadoop DataNode 详解
6、Hadoop JobTracker 详解
7、Hadoop TaskTracker 详解
8、Yarn资源管理系统详解
9、Resourcemanager详解
10、NodeManager详解
1、Hadoop Mapper类核心代码
2、Hadoop Reduce类核心代码
3、Hadoop 核心代码
 
模块二
 
数据分析的算法详解
1、K-means算法详解
2、线性回归详解
3、机器学习详解
4、Canopy算法详解
5、贝叶斯算法详解
 
模块三 Hive实战(数据分析) 1、Hive
(1)Hive的负载均衡搭建
(2)Hive的访问方式
(3)Hive的元数据存储到Mysql
(4)Hive的数据类型
(5)Hive表的创建
(6)Hive加载数据
(7)Hive的CLI操作介绍
2、hive数据定义
(1)内部表和外部表
(2)表的分区
(3)删除表
(4)修改表
(5)查询语句
(6)where语句
3、Hive高级查询语句
(1)group by操作
(2)Join操作
(3)Order by和Sort by
(4)Union all
(5)索引
4、Hive的存储类型和复合数据类型
(1)TextFile
(2)Sequence File
(3)RCFile
(4)Hive的自定输入格式
(5)Array
(6)Map
(7)Struct
5、Hive的内置函数和自定义UDF和UDAF实战
6、Hive的调优
(1)explain
(2)队列设置
(3)Join优化
(4)本地模式和并行执行
(5)设置Mapper和Reducer的个数
(6)JVM重用
(7)索引
(8)动态分区调整
(9)推测执行
(10)Hive的debug调试
7、hive的安全
(1)Hive的hadoop安全的整合
(2)使用Hive进行验证
(3)Hive的权限管理
(4)分区级别的权限
(5)自定授权
8、Hive的案例实战
(1)nginx日志实战
(2)某公司的Hive项目
1、nginx日志实战
2、某公司的Hive项目
模块四 Mahout实战(数据挖掘) 1、Mahout安装测试
2、Mahout算法库介绍
3、解析聚类算法
4、解析分类算法
6、协同过滤算法
7、聚类算法详解
8、canopy算法
(1)mahout中canopy算法实现原理(2)mahout的canopy算法实战
(3)Hadoop上面运行canopy算法
9、mean shift算法
(1)mean shift算法简介
(2)mahout中mean shift算法实现原理
(3)mahout的mean shift算法实战
(4)Hadoop上面运行mean shift算法
10、k-means算法
(1)k-means算法简介
(2)mahout中k-means算法实现原理
(3)mahout的k-means算法案例实战
(4)Hadoop上面运行k-means算法
11、分类算法
(1)贝叶斯算法简介
(2)贝叶斯算法原理介绍
(3)贝叶斯算法在hadoop上面运行
(4)贝叶斯算法的案例实战
12、Mahout推荐算法介绍
13、Taste的框架介绍
14、Mahout推荐器
(1)基于用户的推荐器
(2)基于项目的推荐器
(3)Slope One 推荐策略
15、推荐系统实战
(1)个性化推荐介绍
(2)推荐建模
(3)数据准备
(4)关联分析
(5)代码编写
模块五 数据挖掘在电信的案例 1、基站数据分析
2、人流的动态分析
3、拉链算法的案例详解
4、套餐的更改轨迹分析
5、客户中心的数据情感分析和挖掘
6、用户的通话记录分析
7、套餐的营销分析
8、分析流式的用户和挖掘潜在的客户
模块六 数据挖掘在银行的案例 1、财务分析
2、客户价值&风险定价
3、巴塞尔3 &信用风险
4、绩效管理
5、客户关系管理(CRM)
6、客户访问分析
7、流失路径
8、购买路径
9、欺诈路径
10、多渠道营销
11、欺诈
12、数据挖掘&原型设计
13、营销归因
14、投诉&销售合规
15、情感分析
                             “Spark实战”课程内容
模 块 培训大纲
Spark
运行架构和解析
1、Spark的运行架构
2、基本术语
3、运行架构
4、Spark on Standalone运行过程
5、Spark on YARN 运行过程
6、Spark运行实例解析
7、Spark on Standalone实例解析
8、Spark on YARN实例解析
Spark
监控和调优
1、Spark的监控
2、Spark调优
     Spark
编程模型和解析
1、Spark的编程模型
2、Spark编程模型解析
3、RDD的特点、操作、依赖关系
4、Spark应用程序的配置
Spark
scala编程
1、Scala基本语法
2、Scala开发环境搭建
3、Scala开发Spark应用程序
Spark Streaming原理和实践 1、Spark Streaming原理
2、Spark流式处理架构
3、DStream的特点
4、Dstream的操作和RDD的区别
5、Spark Streaming的优化
6、Spark Streaming实例
7、文本实例
8、网络数据处理
Spark SQL
原理和实践
1、Spark SQL原理
2、Spark SQL的Catalyst优化器
3、Spark SQL内核
4、Spark SQL和Hive
5、Spark SQL的实例和编程
6、Spark SQL的实例操作demo
7、Spark SQL的编程
Spark
源码研读
1、Spark源码研读
2、Spark源码下载和研读环境搭建
3、Spark Core介绍
4、SparkContext
5、Executor
6、Deploy
7、RDD和Storage
8、Scheduler和Task
9、Spark Examples
 
Spark应用
案例实战
1、基于spark日志分析
2、个性化推荐系统:带你揭开其神秘面纱
3、在线投放引擎
4、揭开淘宝点击推荐系统的神秘面纱
5、京东商城数据服务架构—实时计算平台
【联系方式】
国软育诚(北京)信息科技有限公司
电  话:010-68104951      
联系人:安培雄
手  机:15010101549   
E-mail:gryc_apx@skl-zg.com
网  址:www.skl-zg.com
办公地址:北京市西城区西直门外大街143号凯旋大厦A座