前言
当今是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活越来越方便,大数据就是这个高科技时代的产物。大数据时代的来临,带来了信息技术发展的巨大变革,并深刻影响着社会生产和人民生活的方方面面。一个国家能否抓住大数据发展机遇,快速形成核心技术和应用,参与新一轮的全球化竞争,将直接决定未来若干年世界范围内各国科技力量博弈的格局。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着数据人才培养的重任,因此,我国各高等院校非常重视大数据课程的开设,“大数据技术原理与应用”已经成为计算机科学与技术专业的重要核心课程。
本书是在三位作者近年来给计算机专业学生讲授“大数据技术原理与应用”课程的基础上整理的讲义编著而成。全书约50万字,每位作者供稿均在15万字以上,最后由余明教授完成统稿。全书详细介绍了大数据的相关知识、技术原理及应用,授课的理念重视理论与实验相结合。全书共14章,第1章为大数据概述,主要内容包括大数据的基本概念、关键技术简介和应用领域等; 第2章介绍大数据平台Hadoop,即大数据处理架构; 第3章介绍分布式文件系统HDFS,包括特点、体系架构、工作机制及工作流程; 第4章介绍分布式并行编程模型MapReduce,包括概念、特征、用途和使用要求以及工作流程; 第5章介绍数据仓库Hive,包括特点、功能、工作原理及架构组成; 第6章介绍分布式数据库HBase,包括特点、适用场景、结构及数据模型; 第7章介绍基于内存的编程模型Spark,包括特点、架构、四大组件等; 第8章介绍流计算与Storm,包括概述、处理流程、应用场景、计算架构等; 第9章介绍大数据采集与预处理,包括大数据采集类型和方式、ETL技术及主要工具、数据预处理内容和步骤等; 第10章介绍大数据存储与管理,包括数据库的演变、数据管理理论以及NoSQL数据库等; 第11章介绍大数据分析与挖掘,包括概念、分析方法、挖掘算法等; 第12章介绍大数据可视化,包括概述、方法及工具等; 第13章介绍大数据安全与治理,包括概述、数据安全与治理; 第14章介绍大数据应用案例,特别介绍天文大数据、地理大数据的应用。
本书共有实验项目12个,安排于各章中,包括: 实验项目1CentOS 7虚拟机的安装; 实验项目2搭建Hadoop伪分布式系统; 实验项目3HDFS命令行操作基础与搭建Eclipse开发环境; 实验项目4MapReduce编程基础; 实验项目5Hive的安装与使用; 实验项目6HBase的安装与使用; 实验项目7Spark的安装与编程基础; 实验项目8Storm的安装与编程基础; 实验项目9Kettle操作基础; 实验项目10Redis的安装与操作基础; 实验项目11BP神经网络应用案例; 实验项目12数据可视化编程基础。每个实验都提供了详细的操作指导,并可通过扫描二维码获取实操视频。
本书既可以作为高等院校大数据、计算机、信息管理、GIS等专业的大数据基础课程教材,也可以供相关技术人员参考使用。
本书的顺利出版,应感谢大数据与人工智能福建省高校重点实验室; 感谢闽南科技学院提供的帮助; 同时感谢清华大学出版社编校老师的辛勤付出。
由于作者水平所限,书中不足之处在所难免,敬请读者批评指正。
作者
2025年1月