首页 > 图书中心 >图书详情
数据编织
作者:胡庆勇、宋焱淼等
定价:79元
印次:1-3
ISBN:9787302657040
出版日期:2024.04.01
印刷日期:2024.10.25
《数据编织》详细介绍了数据编织的理论基础和实践应用,不仅阐述了数据编织的基本概念和相关核心技术,还结合实际案例,探讨了数据编织在交通、航天航空、能源、金融等领域的应用,并介绍了数据编织的挑战,包括数据安全、数据隐私、数据质量和标准化等问题。最后,展望了数据编织的未来发展趋势。本书不仅适用于行业领域的专家学者,也适合于从事数据管理和知识发现的研究人员和实践者。
more >前言 现代数据集成是当今世界的重要组成部分,它们如同织物中的纤维,交织出人类社会的各个层面和维度。而在这个信息爆炸的时代,数据编织的艺术愈发显得重要。本书旨在探讨数据编织的奥秘,揭示数据编织之美,带领读者走进现代数据集成的世界,体味数据编织的乐趣与深邃。 2015年,在清华大学数据科学研究院韩亦舜执行副院长邀请下,有幸参与了交通大数据研究中心的筹建工作,并从此与大数据结下了不解之缘。交通大数据的分析研究与传统交通数据的研究不同,如果被限制在传统的技术框架中,反而会陷入传统技术无法应对的困境,无法发挥交通大数据的跨界融合资源优势。现有的交通数据体系及数据价值研究方式已不能适应跨界共享交通大数据研究的体系和方法,面向大数据共享研究需要构建面向共享大数据分析的数据融合知识创新体系,这样才能适应大数据爆发式增长及与人工智能前沿技术结合的人机融合分析需求。同时,通过对共享交通大数据的广泛调研及对现有的交通数据汇聚体系的深入了解和学习,深刻体会到传统的交通大数据物理集中汇聚方式难以发挥大数据跨界共享融合的优势,难以发挥数据集成需要知识融合的新价值。 交通大数据研究中心成立之后,研究课题“交通态势感知及风险系统中深度融合多维数据的高速公路风险预警”于2018年获得了中国科技产业促进会科技创新二等奖。在与这个课题相关的大数据系统研发的过程中,遇到的最大难题就是分布式多源异构数据处理的时效性和多源异构数据的高效管理及知识融合问题,开展数据编织的研究就来源于对上述问题的探索。为了寻求答案,带着问题在2019年进入清华大学国家卓越工程师学院创新领军工程博士项目,师从陆化普教授,开始了五年时间的探索之旅,涵盖了大数据平台、图数据库、数据仓库、湖仓一体、自然语言处理、语义网络、知识图谱、本体论、数据虚拟化、数据治理、领域数据建模、Bert、Transformer等众多技术和方法的底层逻辑和实现逻辑,在这个过程中,把自己荒废了多年的程序员基本功又捡了回来。 在探索数据与知识融合体系的过程中,我发现数据编织(data fabric)作为一个人工智能与数据管理和分析领域结合极具代表性的前沿技术栈,对解决分布式多源异构数据的逻辑集成及知识融合问题是极好的架构,同时在数据与知识融合方面与人工智能技术,特别是生成式AI技术能够无缝整合。然而,目前对数据编织的系统性研究尚存在困难。在我国,还没有一本专门系统性介绍数据编织架构思想的书籍,网上的相关数据编织架构指南、标准规范及研究文献犹如“散落的珍珠”,难以一窥全貌。数据编织架构体系涉及语义增强知识图谱、活跃元数据、逻辑数据集成等概念,若没有亲身参与数据建设的实践经验,研究基础往往仅限于文献资料,而这些资料通常零散且不完整,特别是中文资料往往只触及皮毛。 数据编织架构体系是一个系统工程,而非单一技术点,涉及众多前沿技术领域。其对系统工程的整体影响大于局部之和,这一点尤为明显。基于自身从事数据编织工作的实践经验,作者试图通过逻辑主线系统地描述数据编织体系,以便全面了解其建设和运用。 然而,需要注意的是,数据编织领域的实践需求和技术进步推动了理论与实践的迅速发展。数字化转型、数据战略、管理策略、组织机构、支撑资源及技术等方面的优化和调整在不断进行,因此,数据编织架构体系的时效性方面存在一定难以保证的问题。在研究过程中,我们要关注这些变化,及时更新和完善相关研究内容。本书开展的数据编织的发展研究,只是现代数据栈建设与运用可借鉴的一个阶段性成果,更是一个供更多数据研究者和建设者参考的基线或起点。 在本书的编写过程中,我们不仅仅是一群作者,更是数据编织的创作者和探索者。各章节的撰写是一项复杂的工作,需要多方共同努力。在此,我们诚挚感谢每一位作者在本书中的付出与贡献。 本书的主创者胡庆勇承担了书中多个章节的重要工作,包括第1章的1.1节、1.2节、1.4节、1.5节,第2章,第4章,第5章的5.1节、5.2节、5.3节、5.4节及第6章的6.2节、6.4节、6.5节,并肩负全书的统稿、审阅、修改、校对和通信等任务。宋焱淼则负责第1章的1.3节、1.6节,以及全书图形的汇总和优化。丁峰负责第6章的6.1节,季自力参与了全书的统稿、审校,对数据编织具体应用研究亦有贡献,乐识非负责第3章的3.1节,罗国荣负责第3章的3.2节,于程水负责第3章的3.3节,李飞与冯晋阳负责第3章的3.4节,杨灵运与甘玉玺负责第3章的3.5节,刘宇与胡旭负责第5章的5.5节,孙剑灵和王淼负责第6章的6.3节。 每一位作者都以其独特的视角和专业知识,为本书的编写贡献了自己的力量。他们作为数据编织的引领者,细心地将数据的各个部分交织在一起,创造出一幅幅令人惊叹的现代数据集成的数据编织画卷。 本书的诞生得益于各位作者的热情投入与合作精神。每一位作者都像是编织者手中的一根纤维,虽微小,却不可或缺,共同构成了国内第一部数据编织专著。 我们相信,通过本书的阅读,读者将深入理解人工智能认知时代到来后数据编织的魅力,感受数据编织之美,启发创新思维,拓展视野,为数据与知识融合的世界的探索之旅增添一份精彩与美好。 愿我们共同探索数据的无限可能,编织出数字世界更加精彩的未来! 祝愿阅读本书的每一位读者在数据编织的新大陆中获得收获与启迪。 由于国内的数据编织研究还处在起步阶段,中文资料极少,本书更多地参考了国外公开的文献资料和研究成果。本书编写过程中得到了清华大学国家卓越工程师学院的专家、领导、老师及同学的大力支持,在此一并表示真诚的谢意。 本书的出版得到了清华大学出版社的大力支持,在此表示诚挚感谢。 笔者 2023年11月于北京清华园
more >