推荐讲师
国内顶尖的数据库调优实战专家,现任Oracle公司研发中……
曾任职BEA(中国)资深软件架构师,十余年的企业软件架……
10余年国际、国内知名高科技企业研发实践和研发管理……

Hadoop数据分析与挖掘实战Spark实战高端课程

培训简介:
【课程背景】
 随着互联网、移动互联网和物联网的发展,特别是互联网+时代的到来,我们已经切实地迎来了一个大数据的时代。大数据处理对于未来的IT开发人员而言,已经成为一项必备的技能,但是要用好大数据,除了工具本身之外,还包括运维、优化、分布式等方面的知识,形成了全新的挑战,其中对大数据的分析与挖掘已经成为一个非常重要且紧迫的需求。
    目前对大数据的分析工具,首选的是Hadoop平台。继Hadoop之后,Spark 以性能超Hadoop百倍,算法实现仅有其1/10或1/100, 星火燎原,正逐步加速成为大数据时代统一计算平台。但Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,事实上已成为当前互联网企业主流的大数据分析平台。为解决广大系统设计人员深入研究与开发大数据技术的需要,提高大数据在企业应用的能力,我培训中心特举办“Hadoop数据分析与挖掘实战”和“Spark实战两门高端课程。
【课程对象】
1、国有商业银行、城市商业银行、保险、证券、基金、金融证券研究所等金融机构想要进一步提高大数据在企业应用能力的;
2、熟悉Hadoop生态系统,想更深入学习Hadoop与Spark整合在企业应用实战案例的人;
3、系统架构师、系统分析师、高级程序员、资深开发人员;
4、牵涉到大数据处理的数据中心运行、规划、设计负责人;
5、政府机关,移动和互联网等大数据来源单位的负责人;
6、高校、科研院所涉及到大数据与分布式数据处理的项目负责人。
【课程优势】
     本课程的最大优势就是:
     1、整个培训过程老师带着学员进行全程上机操作,因此要求每个学员带笔记本电脑。
     2、整个过程老师带着学员进行全程上机操作外,学员会进行全程实战演练,并且在演练过程中会以实际项目案例为主。在演练过程中老师会进行不断的指导,使培训课程真正落地。
【主讲老师】
   刘老师:
原阿里集团-阿里云研发中心大数据资深技术经理, 首席大数据专家,国内资深大数据实战专家。
   刘老师现就职于某国际跨国专业大数据公司中国研发中心任高级技术经理,大中华区大数据总负责人。目前主要负责该国际跨国专业大数据公司在大中华区各大商业银行、电信等领域大数据系统的研发
 与现场实践。
     刘老师同时是国内资深的、最早的一批大数据技术专家、虚拟
化专家,在进入阿里之前曾就职于高德等知名IT企业,担任Hadoop高级工程师。对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB、OpenStack等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富项目实施经验。
     刘老师近年主持或参与的主要典型项目有:上海电信网络优化、中国移动广东移动省公司请账单系统和广州移动详单实时查询系统、中国银联大数据数据票据详单平台、中国光大银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等等。
【课程大纲】
      “Hadoop数据分析与挖掘实战”课程内容
课程模块 课程主题 主要内容
模块一 Hadoop组件详解 1、Hadoop HDFS 基本结构
2、Hadoop HDFS 副本存放策略
3、Hadoop NameNode 详解
4、HadoopSecondaryNameNode 详解
5、Hadoop DataNode 详解
6、Hadoop JobTracker 详解
7、Hadoop TaskTracker 详解
8、Yarn资源管理系统详解
9、Resourcemanager详解
10、NodeManager详解
11、案例分析与演示:Hadoop Mapper类核心代码
12、案例分析与演示:Hadoop Reduce类核心代码
13、案例分析与演示:Hadoop 核心代码
 
模块二
 
数据分析的算法详解
1、K-means算法详解
2、线性回归详解
3、机器学习详解
4、Canopy算法详解
5、贝叶斯算法详解
模块三 Hive实战(数据分析) 1、Hive实战
(1)Hive的负载均衡搭建
(2)Hive的访问方式
(3)Hive的元数据存储到Mysql
(4)Hive的数据类型
(5)Hive表的创建
(6)Hive加载数据
(7)Hive的CLI操作介绍
2、hive数据定义
(1)内部表和外部表
(2)表的分区
(3)删除表
(4)修改表
(5)查询语句
(6)where语句
3、Hive高级查询语句
(1)group by操作
(2)Join操作
(3)Order by和Sort by
(4)Union all
(5)索引
4、Hive的存储类型和复合数据类型
(1)TextFile
(2)Sequence File
(3)RCFile
(4)Hive的自定输入格式
(5)Array
(6)Map
(7)Struct
5、Hive的内置函数和自定义UDF和UDAF实战
6、Hive的调优
(1)explain
(2)队列设置
(3)Join优化
(4)本地模式和并行执行
(5)设置Mapper和Reducer的个数
(6)JVM重用
(7)索引
(8)动态分区调整
(9)推测执行
(10)Hive的debug调试
7、hive的安全
(1)Hive的hadoop安全的整合
(2)使用Hive进行验证
(3)Hive的权限管理
(4)分区级别的权限
(5)自定授权
8、Hive的案例实战
(1)nginx日志实战
(2)某公司的Hive项目
模块四 Mahout实战(数据挖掘) 1、Mahout安装测试
2、Mahout算法库介绍
3、解析聚类算法
4、解析分类算法
6、协同过滤算法
7、聚类算法详解
8、canopy算法
(1)mahout中canopy算法实现原理
(2)mahout的canopy算法实战
(3)Hadoop上面运行canopy算法
9、mean shift算法
(1)mean shift算法简介
(2)mahout中mean shift算法实现原理
(3)mahout的mean shift算法实战
(4)Hadoop上面运行mean shift算法
10、k-means算法
(1)k-means算法简介
(2)mahout中k-means算法实现原理
(3)mahout的k-means算法案例实战
(4)Hadoop上面运行k-means算法
11、分类算法
(1)贝叶斯算法简介
(2)贝叶斯算法原理介绍
(3)贝叶斯算法在hadoop上面运行
(4)贝叶斯算法的案例实战
12、Mahout推荐算法介绍
13、Taste的框架介绍
14、Mahout推荐器
(1)基于用户的推荐器
(2)基于项目的推荐器
(3)Slope One 推荐策略
15推荐系统实战
(1)个性化推荐介绍
(2)推荐建模
(3)数据准备
(4)关联分析
(5)代码编写
模块五 数据挖掘在电信的案例 1基站数据分析
2、人流的动态分析
3、拉链算法的案例详解
4、套餐的更改轨迹分析
5、客户中心的数据情感分析和挖掘
6、用户的通话记录分析
7、套餐的营销分析
8、分析流式的用户和挖掘潜在的客户
 
 
 
 
 
 
模块六
 
 
 
 
 
 
数据挖掘在银行的案例
1、财务分析
2、客户价值&风险定价
3、巴塞尔3 &信用风险
4、绩效管理
5、客户关系管理(CRM)
6、客户访问分析
7、流失路径
8、购买路径
9、欺诈路径
10、多渠道营销
11、欺诈
12、数据挖掘&原型设计
13、营销归因
14、投诉&销售合规
15、情感分析
模块七 某城市商业银行大数据应用案例详解
 
v 大数据架构详解
v POS商户的分析和交易流水分析
  架构:Hadoop+Hive+Hbase+Storm
v 交易风险预测和实时营销
  架构:Hadoop+Flume+Storm+Redis+Esper+Hbase
模块八 某国字头银行大数据应用案例详解 v 大数据架构详解
v 基于Hadoop的数据仓库
   架构:Hadoop+Hive+Hcatalog+oozie
v 担保圈分析、资金链上下游分析
   架构:Hadoop+Spark Graphx+Mllib+R
v 网址选择
   架构:Hadoop+Hive+高德地图
国软育诚(北京)信息科技有限公司
电  话:010-68104951      
联系人:安培雄
手  机:15010101549   
E-mail:gryc_apx@skl-zg.com
网  址:www.skl-zg.com
办公地址:北京市西城区西直门外大街143号凯旋大厦A座