图书目录

目录

下载源码

第1章大数据技术概述

1.1大数据技术的发展背景

1.2大数据核心概念和关键技术

1.2.1大数据核心概念

1.2.2大数据关键技术

1.3代表性大数据分布式处理框架

1.3.1Hadoop

1.3.2Spark

1.3.3Flink

1.3.4常见计算框架的性能对比

本章小结

习题1

实验1Linux常用命令的使用

第2章基于Docker的Hadoop集群搭建

2.1Docker基础知识

2.1.1Docker的核心概念

2.1.2Docker的常见操作

2.1.3Docker网络

2.2Docker环境的准备

2.2.1CentOS镜像下载

2.2.2创建与访问容器

2.3Hadoop集群的搭建

2.3.1集群部署模式

2.3.2集群规划

2.3.3前置软件的安装和配置

2.3.4Hadoop的安装与配置

2.4集群的运行与验证

2.4.1集群的启动与关闭

2.4.2Web页面监控

本章小结

习题2

实验2基于Docker的Hadoop集群搭建

第3章大数据存储与查询

3.1HDFS概述

3.2HDFS运行架构与原理

3.2.1存储架构

3.2.2读写原理

3.3HDFS Shell操作

3.3.1HDFS Shell介绍

3.3.2HDFS Shell常用操作实践

3.4HDFS的Python API操作

3.4.1pyhdfs API操作概述

3.4.2HDFS的Python API常用操作实践

3.5HBase

3.5.1HBase的重要特点和概念

3.5.2HBase集群部署

3.5.3HBase Shell基本操作

3.5.4HBase数据查询

本章小结

习题3

实验3HDFS存储和HBase查询

第4章基于Docker的Spark集群搭建与使用

4.1Spark集群的搭建

4.1.1Scala的下载与安装

4.1.2Spark的下载与安装

4.1.3Spark集群配置

4.1.4其他依赖包的安装与配置

4.1.5生成Spark集群镜像

4.2集群运行

4.2.1创建容器

4.2.2启动Spark集群

4.2.3启动Spark History Server

4.2.4关闭集群

4.3Spark部署

4.3.1Spark部署分类

4.3.2Spark常用部署

4.3.3使用sparksubmit提交作业

4.3.4可能出现的配置问题

本章小结

习题4

实验4基于Docker的Spark集群搭建

第5章Spark概述

5.1Spark的定义

5.1.1Spark的主要发展阶段

5.1.2Spark的生态系统

5.1.3应用场景

5.2Spark的架构与运行原理

5.2.1基本概念

5.2.2架构设计

5.2.3运行流程

5.3基于Jupyter Notebook的PySpark开发平台搭建

5.3.1配置Jupyter Notebook远程访问

5.3.2基于Jupyter Notebook的PySpark环境启动及验证

5.3.3基于Jupyter Notebook的PySpark应用程序的开发

5.4基于PyCharm的PySpark开发平台搭建

5.4.1创建与配置SFTP连接

5.4.2部署应用程序

5.4.3开发平台的验证

5.4.4可能出现的问题

本章小结

习题5

实验5基于Jupyter Notebook的PySpark开发平台的搭建

第6章Spark RDD

6.1RDD的运作方式

6.1.1RDD的概念

6.1.2RDD的特性

6.1.3RDD之间的依赖关系

6.1.4阶段划分

6.1.5RDD的运行过程

6.2RDD的创建 

6.2.1并行化创建RDD

6.2.2读取外部数据集

6.3RDD操作

6.3.1RDD的分类

6.3.2RDD的转换

6.3.3RDD的动作

6.3.4键值对RDD 

6.3.5综合案例

6.4文件读写

本章小结

习题6

实验6Spark RDD编程实践

第7章Spark SQL

7.1Spark SQL概述

7.2DataFrames的创建与保存

7.2.1createDataFrame函数

7.2.2读写外部文件

7.2.3读写数据库

7.3DataFrame的常用操作

7.3.1基本操作

7.3.2复杂操作

7.3.3自定义函数

7.4DataFrame与RDD的相互转换

7.4.1DataFrame转RDD

7.4.2RDD转DataFrame

本章小结

习题7

实验7Spark SQL编程实践

第8章Pandas API on Spark编程

8.1Pandas on Spark基础

8.1.1Pandas on Spark产生的背景

8.1.2Pandas on Spark的数据类型

8.1.3Pandas on Spark的数据结构

8.2Pandas API on Spark

8.2.1读取/保存函数

8.2.2常用属性

8.2.3索引

8.2.4常用方法

8.2.5分组

8.2.6Sparkrelated函数

8.2.7PandasonSpark specific

8.2.8Plotting pandas on pyspark

8.3不同DataFrame的转换

8.3.1Pandas on Spark DataFrame

8.3.2Spark DataFrame

8.4综合案例——酒店预订需求分析

8.4.1需求分析

8.4.2数据读取及字段理解

8.4.3数据预处理

8.4.4用户数据探索

本章小结

习题8

实验8Pandas API on Spark编程实践

第9章PySpark ML

9.1Spark ML概述

9.2基本数据类型

9.2.1本地向量

9.2.2本地矩阵

9.3基本方法

9.3.1假设检验

9.3.2摘要总结

9.3.3数据不平衡处理

9.3.4特征工程

9.3.5机器学习流水线

9.3.6模型优化工具

9.4分类算法

9.4.1逻辑回归

9.4.2朴素贝叶斯

9.4.3决策树

9.4.4随机森林

9.4.5支持向量机

9.4.6梯度提升树

9.4.7评估指标

9.4.8案例分析

9.5回归算法

9.5.1线性回归

9.5.2因子分解机

9.5.3评估指标

9.5.4案例分析

9.6聚类算法

9.6.1KMeans 

9.6.2BisectingKMeans

9.6.3GaussianMixture

9.6.4LDA 

9.6.5评价指标

9.6.6案例分析

9.7推荐算法

9.7.1ALS

9.7.2评价指标

9.7.3案例分析

本章小结

习题9

实验9PySpark ML编程实践

参考文献