目录

  • 1 初识Hadoop
    • 1.1 大数据概述
    • 1.2 大数据的应用场景
    • 1.3 Hadoop概述
    • 1.4 第一章测验
  • 2 搭建Hadoop集群
    • 2.1 安装准备
    • 2.2 Hadoop集群搭建
    • 2.3 Hadoop集群测试
    • 2.4 Hadoop集群初体验
  • 3 HDFS分布式文件系统
    • 3.1 HDFS的简介
    • 3.2 HDFS的架构和原理
    • 3.3 HDFS的Shell操作
    • 3.4 HDFS的Java API操作
  • 4 MapReduce分布式计算框架
    • 4.1 MapReduce概述
    • 4.2 MapReduce工作原理
    • 4.3 MapReduce编程组件
    • 4.4 MapReduce运行模式
    • 4.5 MapReduce性能优化策略
    • 4.6 MapReduce经典案例——倒排索引
    • 4.7 MapReduce经典案例——数据去重
    • 4.8 MapReduce经典案例——TopN
  • 5 Zookeeper分布式协调服务
    • 5.1 初识Zookeeper
    • 5.2 数据模型
    • 5.3 Zookeeper的Watch机制
    • 5.4 Zookeeper的选举机制
    • 5.5 Zookeeper的经典应用场景
    • 5.6 Zookeeper分布式集群部署
    • 5.7 Zookeeper的Shell操作
    • 5.8 Zookeeper的Java API操作
  • 6 Hadoop2.0新特性
    • 6.1 Hadoop2.0改进与提升
    • 6.2 YARN资源管理框架
    • 6.3 HDFS的高可用
  • 7 Hive数据仓库
    • 7.1 数据仓库简介
    • 7.2 Hive简介
    • 7.3 Hive的安装
    • 7.4 Hive的管理
    • 7.5 Hive内置数据类型
    • 7.6 Hive数据模型操作
    • 7.7 Hive数据操作
  • 8 Flume日志采集系统
    • 8.1 Flume概述
    • 8.2 Flume基本使用
    • 8.3 Flume采集方案配置说明
    • 8.4 Flume的可靠性保证
    • 8.5 Flume拦截器
    • 8.6 案例——日志采集
  • 9 工作流管理器Azkaban
    • 9.1 工作流管理器概述
    • 9.2 Azkaban概述
    • 9.3 Azkaban部署
    • 9.4 Azkaban使用
  • 10 Sqoop数据迁移
    • 10.1 Sqoop概述
    • 10.2 Sqoop安装配置
    • 10.3 Sqoop指令介绍
    • 10.4 Sqoop数据导入
    • 10.5 Sqoop数据导出
  • 11 综合项目——网站流量日志数据分析系统
    • 11.1 系统概述
    • 11.2 模块开发——数据采集
    • 11.3 模块开发——数据预处理
    • 11.4 模块开发——数据仓库开发
    • 11.5 模块开发——数据分析
    • 11.6 模块开发——数据导出
    • 11.7 模块开发——日志分析系统报表展示
安装准备

2.1.1  虚拟机安装


2.1.2  虚拟机克隆



2.1.3  Linux系统网络配置


2.1.4  SSH 服务配置