目录
第1章大数据概述
1.1数据和大数据
1.1.1数据定义
1.1.2数据与信息/知识/智慧的关系
1.1.3大数据的定义
1.2数据科学
1.2.1关于数据科学
1.2.2数据科学的基本流程
1.2.3数据科学家常用的工具
1.3数据结构
1.3.1结构化数据
1.3.2半结构化数据
1.3.3非结构化数据
1.4大数据特征及对科学研究的影响
1.4.1大数据的数据特征
1.4.2大数据对科学研究的影响
1.4.3大数据时代的新理念
1.5大数据产生方式及来源
1.5.1大数据的发展历程
1.5.2大数据产生方式
1.5.3大数据的来源
1.6大数据技术及架构
1.6.1大数据技术
1.6.2大数据架构
1.7大数据计算模式
1.7.1批处理计算
1.7.2流计算
1.7.3图计算
1.7.4查询分析计算
1.8大数据产业
1.8.1IT基础设施层
1.8.2数据源层
1.8.3数据管理层
1.8.4数据分析层
1.8.5数据平台层
1.8.6数据应用层
1.9大数据处理的基本流程
1.9.1数据采集、清洗和预处理
1.9.2数据存储
1.9.3数据分析与挖掘
1.9.4结果可视化
1.10大数据关键技术简介
1.10.1分布式计算
1.10.2分布式文件系统
1.10.3分布式数据库
1.10.4数据仓库和NoSQL数据库
1.10.5云计算与虚拟化
1.10.6物联网与大数据
1.10.7人工智能与大数据
1.10.8区块链与大数据
1.11大数据的应用领域
1.11.1大数据在医疗领域中的应用
1.11.2大数据在金融领域中的应用
1.11.3大数据在能源领域中的应用
1.11.4大数据在电子商务平台的应用
1.11.5大数据在教育领域中的应用
1.12实验项目1: CentOS 7虚拟机的安装
1.12.1安装VMware Workstation Pro 16
1.12.2安装CentOS 7
1.12.3安装并使用Xshell 8
1.12.4安装和使用WinSCP
1.12.5拍摄虚拟机快照
思考题
第2章大数据平台Hadoop
2.1Hadoop简介
2.1.1Hadoop特性
2.1.2Hadoop应用现状
2.1.3Hadoop版本
2.2Hadoop架构
2.2.1总体架构
2.2.2HDFS概述
2.2.3Yarn概述
2.2.4MapReduce概述
2.2.5HDFS、Yarn、MapReduce三者关系
2.2.6Hadoop家族
2.3Hadoop安装与使用
2.4实验项目2: 搭建Hadoop伪分布式系统
2.4.1准备工作
2.4.2基础配置
2.4.3安装配置Hadoop
2.4.4启动Hadoop
2.4.5拍摄虚拟机快照
思考题
第3章分布式文件系统
3.1HDFS及其特点
3.1.1HDFS优点
3.1.2HDFS缺点
3.2HDFS体系架构
3.2.1NameNode
3.2.2DataNode
3.2.3Client
3.2.4Secondary NameNode
3.2.5HDFS文件块大小
3.3HDFS的工作机制
3.3.1机制体系
3.3.2安全模式
3.3.3机架策略
3.3.4负载均衡
3.4HDFS的工作流程
3.4.1NameNode启动
3.4.2Secondary NameNode工作
3.4.3HDFS的读流程
3.4.4HDFS的写流程
3.4.5HDFS的删除流程
3.5实验项目3: HDFS命令行操作基础与搭建Eclipse开发环境
3.5.1准备工作
3.5.2HDFS命令实操
3.5.3Eclipse安装及配置
3.5.4安装配置JDK
3.5.5安装和配置Maven
3.5.6安装配置Hadoop
3.5.7测试Hadoop单词统计程序
思考题
第4章分布式并行编程模型MapReduce
4.1分布式并行编程模型及主要类型
4.2MapReduce的简介
4.3MapReduce的基本概念
4.3.1两个阶段
4.3.2三层含义
4.4主要技术特征和优缺点
4.4.1主要技术特征
4.4.2主要优缺点
4.5工作流程
4.6用途与使用要求
4.6.1用途
4.6.2使用要求
4.7典型案例
4.8实验项目4: MapReduce编程基础
4.8.1准备工作
4.8.2创建Hadoop项目框架
4.8.3编写WorkCount程序
思考题
第5章数据仓库Hive
5.1Hive的特点及功能
5.1.1Hive的特点
5.1.2Hive的功能
5.2Hive工作原理及架构组成
5.2.1工作原理
5.2.2架构组成
5.3实验项目5: Hive的安装与使用
5.3.1准备工作
5.3.2安装MySQL
5.3.3安装配置Hive
5.3.4Hive数据库操作
5.3.5Hive表操作
5.3.6数据查询
5.3.7拍摄虚拟机快照
思考题
第6章分布式数据库HBase
6.1HBase的特点及适用场景
6.1.1HBase的特点
6.1.2HBase的适用场景
6.2HBase的结构及数据模型
6.2.1HBase的结构
6.2.2HBase的数据模型
6.3HBase与传统关系数据库
6.4实验项目6: HBase的安装与使用
6.4.1准备工作
6.4.2HBase安装和配置
6.4.3HBase shell命令
6.4.4插入和更新数据
6.4.5删除数据
6.4.6拍摄虚拟机快照
思考题
第7章基于内存的编程模型Spark
7.1Spark概述
7.1.1Spark的诞生
7.1.2Spark的特点
7.2Spark的架构及核心
7.2.1Spark的架构基础
7.2.2核心内容
7.3Spark的四大组件
7.3.1Spark SQL
7.3.2Spark 流
7.3.3MLlib机器学习库
7.3.4GraphX
7.4实验项目7: Spark的安装与编程基础
7.4.1准备工作
7.4.2安装配置Scala
7.4.3安装配置Spark
7.4.4Spark编程操作
7.4.5拍摄虚拟机快照
思考题
第8章流计算与Storm
8.1流计算概述
8.1.1流数据特征
8.1.2流计算概念
8.2流计算处理流程及应用场景
8.2.1处理流程
8.2.2应用场景
8.3开源流计算框架
8.3.1Storm的特点和应用
8.3.2Storm工作原理
8.4实验项目8: Storm的安装与编程基础
8.4.1安装Storm
8.4.2编写Storm程序
8.4.3拍摄虚拟机快照
思考题
第9章大数据采集与预处理
9.1大数据采集概述
9.1.1大数据采集的类型
9.1.2大数据采集的方式
9.2ETL技术
9.2.1数据抽取
9.2.2数据转换
9.2.3数据加载
9.3ETL工具
9.3.1ETL工具选择
9.3.2主流的ETL工具
9.4数据预处理
9.4.1数据预处理内容
9.4.2数据预处理主要步骤
9.4.3不同数据格式的预处理
9.5实验项目9: Kettle操作基础
9.5.1准备工作
9.5.2安装Kettle
9.5.3运行Kettle
9.5.4建立数据库连接
9.5.5表输入
9.5.6CSV输入
9.5.7Excel输入
9.5.8生成记录
9.5.9生成随机数
思考题
第10章大数据存储与管理
10.1数据库的演变
10.1.1人工管理阶段
10.1.2文件系统阶段
10.1.3数据库系统阶段
10.1.4关系数据库阶段
10.1.5大数据与人工智能集成阶段
10.2NoSQL数据库
10.2.1NoSQL数据库的提出
10.2.2NoSQL数据库特征
10.2.3NoSQL数据库优势
10.2.4NoSQL数据库分类
10.3数据管理理论
10.3.1相关理论简介
10.3.2ACID、CAP和BASE理论比较
10.4实验项目10: Redis的安装与操作基础
10.4.1Redis的安装
10.4.2Redis的基础操作
10.4.3Redis图形客户端的使用
思考题
第11章大数据分析与挖掘
11.1大数据分析的概念
11.1.1认识数据分析
11.1.2大数据分析的类型
11.1.3大数据分析的步骤
11.2大数据分析的方法
11.2.1分类
11.2.2回归
11.2.3聚类
11.2.4关联规则
11.3认识数据挖掘
11.3.1数据挖掘流程
11.3.2数据挖掘技术
11.3.3数据挖掘应用
11.4数据挖掘常见算法
11.4.1k-means算法
11.4.2KNN算法
11.4.3朴素贝叶斯算法
11.4.4决策树算法
11.4.5支持向量机算法
11.4.6神经网络算法
11.5实验项目11: BP神经网络应用案例
11.5.1安装Miniconda3
11.5.2使用Miniconda3
11.5.3安装PyCharm
11.5.4创建并配置项目
11.5.5编写图片查看程序
11.5.6编写数字识别程序
思考题
第12章大数据可视化
12.1数据可视化概述
12.1.1认识数据可视化
12.1.2数据可视化形式和功能
12.2大数据可视化方法
12.2.1文本可视化
12.2.2社交网络可视化
12.2.3地理空间可视化
12.3关于数据可视化工具
12.3.1Excel
12.3.2Tableau
12.3.3ECharts
12.3.4D3
12.3.5Python
12.3.6R
12.3.7其他
12.4实验项目12: 数据可视化编程基础
12.4.1准备工作
12.4.2安装库
12.4.3打开项目
12.4.4编写数据可视化程序
12.4.5运行程序
思考题
第13章大数据安全与治理
13.1大数据安全概述
13.1.1认识数据安全
13.1.2大数据安全的挑战
13.1.3大数据安全的关键技术
13.2数据治理
13.2.1数据治理概述
13.2.2数据治理目标及实现
思考题
第14章大数据应用案例
14.1天文大数据及其应用
14.2地理大数据及其应用
思考题
参考文献