,Oracle ,Postgres等)中的数据导进到关系型中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部
署,也为了让开发人员能够更快速的迭发,Sqoop独立成为一个Apache项目。sql语句面试常见问题
一、数据转换工具Sqoop
1)Sqoop功能、使用原则
2)将RDBMS数据导入Hive表中(全量、增量)
3)将HDFS上文件导出到RDBMS表中
二、文件收集框架Flume
1)Flume 设计架构、原理(三大组件)
2)Flume初步使用,实时采集数据
3)如何使用Flume监控文件夹数据,实时采集录入HDFS中 4)任务调度框架Oozie
三、Oozie功能、安装部署
1)使用Oozie调度MapReduce Job和HiveQL
2)定时调度任务使用
课程五、大数据Web开发框架 - 大数据WEB 工具Hue精讲
Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通
过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。
1)Hue架构、功能、编译
2)Hue集成HDFS
3)Hue集成MapReduce
4)Hue集成Hive、DataBase
5)Hue集成Oozie
课程六、大数据核心开发技术 - 分布式HBase从入门到精通
Hadoop之上提供了类似于Bigtable的能力,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大
规模结构化存储集群
一、HBase初窥使用
1)HBase是什么、发展、与RDBMS相比优势、企业使用
2)HBase Schema、表的设计

3)HBase 环境搭建、shell初步使用(CRUD等)
二、HBase 深入使用
1)HBase 数据存储模型
2)HBase Java API使用(CRUD、SCAN等)
3)HBase 架构深入剖析
4)HBase 与MapReduce集成、数据导入导出
三、HBase 高级使用
1)如何设计表、表的预分区(依据具体业务分析讲解)
2)HBase 表的常见属性设置(结合企业实际)
3)HBase Admin操作(Java API、常见命令)
四、【北风网用户浏览日志】进行分析
1)依据需求设计表、创建表、预分区
2)进行业务查询分析
3)对于密集型读和密集型写进行HBase参数调优
课程七、大数据核心开发技术 - Storm实时数据处理(选修)
Storm是Twitter开源的分布式实时大数据处理框架,被业界称为实时版Hadoop。 随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍,比如网站统计、
推荐系统、预警系统、金融系统(高频交易、股票)等等, 大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点,而Storm更是
流计算技术中的佼佼者和主流。 按照storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。Hadoop提供了map、reduce原语,使我
们的批处理程序变得简单和高效。 同样,Storm也为实时计算提供了一些简单高效的原语,而且Storm的Trident是基于Storm原语更高级的抽象框架,类似于基于
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-76174-2.html
烊烊
去不了只能舔屏了