21)-Scala编程详解:Actor入门
课程九、大数据核心开发技术 - 内存计算框架Spark精讲
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点。启用了内存分布数据集,除
了能够提供交互式查询外,它还可以优化迭代工作负载。Spark Streaming: 构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片断
(几秒),以类似batch批量处理的方式来处理这小部分数据
1)Spark 初识入门
2)Spark 概述、生态系统、与MapReduce比较
3)Spark 编译、安装部署(Standalone Mode)及测试
4)Spark应用提交工具(spark-submit,spark-shell)
5)Scala基本知识讲解(变量,类,高阶函数)
6)Spark 核心RDD

7)RDD特性、常见操作、缓存策略
8)RDD Dependency、Stage常、源码分析
9)Spark 核心组件概述
10)案例分析
11)Spark 高阶应用
12)Spark on YARN运行原理、运行模式及测试
13)Spark HistoryServer历史应用监控
14)Spark Streaming流式计算
15)Spark Streaming 原理、DStream设计
16)Spark Streaming 常见input、out
17)Spark Streaming 与Kafka集成
18)使用Spark对【北风网用户浏览日志】进行分析
课程十、大数据核心开发技术 - Spark深入剖析
本课程主要讲解目前大数据领域热门、火爆、有前景的技术——Spark。在本课程中,会从浅入深,基于大量案例实战,深度剖析和讲解Spark,并且会包含
完全从企业真实复杂业务需求中抽取出的案例实战。课程会涵盖Scala编程详解、Spark核心编程.
1)Scala编程、Hadoop与Spark集群搭建、Spark核心编程、Spark内核源码深度剖析、Spark性能调优
2)Spark源码剖析
课程十一、企业大数据平台高级应用
本阶段主要就之前所学内容完成大数据相关企业场景与解决方案的剖析应用及结合一个电子商务平台进行实战分析,主要包括有: 企业大数据平台概述、搭建企业
大数据平台、真实服务器环境部署、使用CM 5.3.x管理CDH 5.3.x集群
1)企业大数据平台概述
2)大数据平台基本组件
3)Hadoop 发行版本、比较、选择
4)集群环境的准备(系统、基本配置、规划等)
5)搭建企业大数据平台
6)以实际企业项目需求为依据,搭建平台
7)需求分析(主要业务)
8)框架选择(Hive\HBase\Spark等)
9)真实服务器环境部署
10)安装Cloudera Manager 5.3.x
11)使用CM 5.3.x安装CDH 5.3.x
12)如何使用CM 5.3.x管理CDH 5.3.x集群
13)基本配置,优化
14)基本性能测试
15)各个组件如何使用
课程十二、项目实战:驴妈妈旅游网大型离线数据电商分析平台
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解。尤其是在电商、旅游、银行、证券、游戏
等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了。 本课程讲师本人之前在游戏、旅游等公司
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-76174-4.html
期待
一年定期利率是1