课程模块 | 课程主题 | n 主要内容 | n 案例和演示 |
模块一 | Hadoop简介和生态系统介绍 | ü 传统大规模数据分析存在的问题 ü Hadoop概述 ü Hadoop与分布式文件系统 ü Hadoop生态系统 ü Hadoop的行业应用案例分析 ü Hadoop在云计算和大数据的位置和关系 ü Hadoop版本介绍 ü Hadoop与Google FS的关系 ü Hadoop在国内的使用情况和未来 | Ø Hadoop在推荐领域的使用案例介绍 |
模块二 | 大数据应用场景 | ü 离线计算架构、技术和应用场景 ü 实时查询架构、技术和应用场景 ü 流式计算架构、技术和应用场景 ü 内存计算架构、技术和应用场景 ü 海量数据的ETL | |
模块三 | Hadoop组件介绍 | ü Hadoop NameNode 介绍 ü Hadoop SecondaryNameNode 介绍 ü Hadoop DataNode 介绍 ü Hadoop JobTracker 介绍 ü Hadoop TaskTracker 介绍 | |
模块四 | Hadoop的HDFS模块 | ü HDFS架构介绍 ü HDFS原理介绍 ü NameNode功能详解 ü DataNode功能详解 ü SecondaryNameNode功能详解 ü HSFD的fsimage和editslog详解 ü HDFS的block详解 ü HDFS的block的备份策略 ü Hadoop的机架感知配置 ü HDFS的shell命令介绍 ü HDFS的thrift server服务介绍 ü HDFS的API接口介绍 ü HDFS的权限详解 ü Hadoop的客服端接入案例 | Ø Hadoop的shell命令演示 Ø Hadoop的API接口演示 Ø Hadoop的客服端接入案例 |
模块五 | Hadoop生态组件 | ü 集群管理工具—ambari ü 分布式存储—HDFS ü 分布式计算— MapReduce ü noSQL数据库—Hbase ü 工作流工具—Oozie ü 数据的并行采集—Flume ü MapReduce脚本工具—Pig ü 与关系型数据库之间的数据迁移—Sqoop ü 资源管理平台—Yarn ü 数据挖掘算法—Mahout ü 分布式统一服务—Zookeeper ü Hadoop安全工具—Knox | Ø |
模块五 | MapReducer入门 | ü Mapreduce原理 ü MapReduce流程 ü 剖析一个MapReduce程序 ü Mapper和Reducer抽象类详解 ü Mapreduce的最小驱动类 ü MapReduce自带的类型 ü 自定义Writables和WritableComparables ü Mapreduce的输入InputFormats ü MapReduce的输出OutputFormats ü Combiner详解 ü Partitioner详解 ü DistributeFileSystem详解 ü Hadoop Tools工具介绍 ü Counter计数器详解 ü 自定义Counter计数器 ü 基于Hadoop二次开发实战 ü MapReduce的优化 ü Map和Reduce的个数设置 ü Hadoop小文件优化 ü 任务调度 ü 默认的任务调度 ü 公平任务调度 ü 能力任务调度 ü 使用 Hadoop MapReduce Streaming 编程 ü MapReduce的单元测试 | Ø MapReduce实现海量数据比较大小案例 Ø 自定义Hadoop类型案例 Ø 自定义Partitioner案例 Ø 实现在内存随机生成100个数,分成两个Map来比较大小 Ø 多文件输出和自动定义MapReduce的输出名 Ø MapReduce实现Join算法案例 Ø MapReduce实现海量文档相似度算法 Ø 自定义Counter案例实现 Ø MapReduce实现Pangrank算法。 Ø MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。 Ø 某公司使用MapReduce分析日志案例(10T数据以上) Ø 配置公平调度器案例实战 |
模块六 | Yarn资源控制 | ü 使用Cgroups支持CPU隔离 ü 指定某个应用的资源使用策略; ü 根据指定策略实现 CPU 与内存的固定配额调度 ü 根据指定策略实现 CPU 与内存百分比的配额调度 ü 根据指定策略实现不同计算模型(mapreduce、spark)在各个计算节点的分布 ü 根据指定策略实现不同计算模型个对资源的限定 ü 根据指定策略实现不同计算模型在具体哪些节点上启动 ü 基于Yarn的公平调度(Fair Scheduler)和能力调度(Capacity Scheduler) | Ø Yarn资源控制实战 |
模块七 | Hive | ü Hive和Pig基础 ü Hive、Impala和presto的比较 ü Hive的作用和原理说明 ü Hadoop仓库和传统数据仓库的协作关系 ü Hadoop/Hive仓库数据数据流 ü Hive 部署和安装 ü Hive Cli 的基本用法 ü Hive的server启动 ü HQL基本语法 ü Hive的加载数据本地加载和HDFS加载 ü Hive的partition详解 ü Hive的存储方式详解 ü RCFILE、TEXTFILE和SEQUEUEFILE ü Hive的UDF和UDAF ü Hive的transform详解 ü Hive的JDBC连接 | Ø 使用JDBC 连接Hive进行查询和分析 Ø 使用正则表达式加载数据 Ø 编写UDF函数 Ø 编写UDAF自定义函数 Ø Partition使用实战 Ø Transform使用实战 Ø 某些大型公司使用hive分析日志案例详解和实战。 |
模块八 | Hbase使用 | ü Hbase原理 ü Hmaster详解 ü RegionServer详解 ü Zookeeper介绍 ü Hbase安装 ü Hbase逻辑视图介绍 ü Hbase物理视图介绍 ü Hbase的二级索引介绍 ü Hbase 的DDL和DML ü Hbase表的设计案例 ü Hbase的import功能介绍 ü MapReduce操作Hbase ü Hbase的 thrift Server介绍 ü Hbase 的API介绍 ü Hbase案例分析 | Ø Hbase安装实战 Ø MapReduce操作Hbase实战 Ø Hbase的API实战 Ø Hbase表结构设计实战 |
模块九 | Hadoop企业级别案例解析 | u Hadoop 结构化数据案例 u Hadoop 非结构化案例 u Hbase 数据库案例 u Hadoop 视频分析案例 | u 利用大数据分析改进交通管理 u 区域医疗大数据应用案例 u 银联大数据数据票据详单平台 u 广东移动省公司请账单系统 u 上海电信网络优化 u 某通信运营商全国用户上网记录 u 浙江台州市智能交通系统 u 移动广州详单实时查询系统 u 跨区域实时视频监控系统 |
模块十 | RedHadoop 企业版本 | u 运用RedHadoop快速构建服务集群 u 运用RedHadoop DW 构建数据仓库 | u 基于RedHadoop Hive构建数据仓库平台 u 灵活运用 Hive 加速游戏数据仓库 u 基于Pig+OpenCV大规模图像人脸识别 |
模块十一 | Spark介绍 | ü 内存计算—Spark ü 实时计算—Spark Streaming ü SQL on Spark— Spark QL & Shark ü 基于spark的数据挖掘— Mllib ü 基于Spark的图计算—graphx ü Spark on Yarn实战 | Ø Spark+Kafka+Spark Streaming+Hbase实时计算实战 |
模块十二 | 互联网大数据应用案例 | ü 阿里的ODPS大数据平台架构介绍 ü 阿里的实时推荐架构 ü 阿里的交叉营销系统 ü 阿里支付宝交易监控系统 ü 支付宝微贷案例分析(互联网征信系统) ü 京东打白条系统分析 ü 百度预测大数据平台案例分析 ü 联通大数据开放平台变现案例分析 | Ø |
单 位 | (发票抬头) | |||||
地 址 | 联 系 人: | |||||
电 话 | 传 真 | 邮 箱 | ||||
姓 名 | 性 别 | 部门/职务 | 电 话 | 手 机 | 邮 箱 | |
培 训 费 | 万 仟 佰 拾 元 | 是否食宿 是()否() | ||||
户 名:软博时代(北京)科技有限公司 开 户 行:招商银行北京陶然亭支行 帐 号:110914587710501 | 户 名:中联软博(北京)科技有限公司 开 户 行:中国工商银行北京中关村支行 账 号:0200095609200088230 | |||||
通信人家园 (https://www.txrjy.com/) | Powered by C114 |