图书前言

P2P网络服务的概念最早于1969年由Steve Crocker提出,每个参与P2P网络服务的主机都称为一个Peer,由PeertoPeer连接构成的网络就称为P2P网络。P2P网络不仅能提供快速高效的文件共享、低成本高可用的计算资源和存储资源共享,而且具有强大的网络连通性,以及更直接、更灵活的信息传送能力。然而,P2P网络在提供高效快速资源共享的同时,也带来了众多的问题: P2P对传输速度的需求高,且P2P应用的数据交换具有一对多、突发性和分布式特性,P2P用户的超大容量下载消耗了大量带宽; 其用户抢占了60%~80%的网络带宽,容易引起企业及ISP瓶颈链路的阻塞;  P2P 用户不分时段地进行高速下载,增大网络设备的负荷,容易造成高峰时段的链路拥塞等。随着P2P应用的快速发展,P2P指数级增长的数据传输使得网络带宽资源更加紧张。因此,为了确保其他正常网络用户的服务,同时为了更好地发挥P2P技术的优势,对P2P流量进行分类、识别就成为目前业内研究的一个热点。

本书作者从2004年开始研究P2P流量识别的相关技术,先后得到国家自然科学基金、科技部中小企业创新基金、国家重点实验室基金、江苏省自然基金、江苏省高校自然基金项目及企业委托项目的资助,取得了以下成果。

(1) 立足于P2P协议最基本的特点,研究并总结出P2P流量的多个统计特性,提出了基于滑动窗口机制的P2P流量识别模型(SWP2PIM),并建立了P2P流量识别与控制仿真系统,详细内容在第2章中阐述。

(2) 根据P2P独有的通信网络拓扑结构特征,提出了基于通信网络拓扑结构的P2P流量识别模型(P2PCNTIM),该模型使用多主机特征以及通信对端类型特征对P2P流量进行识别,并将这两个特征有机地结合起来以提高识别的准确率和识别效率,第3章给出了详细分析。

(3) 将BP网络应用于P2P流识别,提出了一种基于改进BP算法的P2P流识别模型(IBPNNP2PIM)。针对传统BP算法的缺陷,在总结了他人研究成果的基础上,对传统BP算法进行了改进,并将其应用于模型中流分类器模块的设计,与采用传统BP算法的流分类器相比,IBPNNP2PIM对P2P流的识别具有一定的有效性和优越性,第4章展示了其应用效果。

(4) 通过大量的实验对比分析P2P应用和非P2P应用,总结出P2P的连接特征、深层数据包特征和流量统计特征这些特征,并在此基础上提出了基于多重特征分类的P2P流量识别模型(MCCP2PIM),第5章中对该系统实现进行了剖析。

(5) 基于近几年对支持向量机(Support Vector Machines,SVM)技术的深入研究,致力于将SVM技术运用到P2P流量识别中,分别提出了基于改进SVM的P2P流量检测模型、基于P2P与DPI(Deep Packet Inspection,深度包检测)的P2P流量识别方法以及基于MSVM(Multidimensional Support Vector Machine,多维SVM)的P2P流量识别模型,第6章描述了这3个模型及其系统的成果。

(6) 首次将模糊数学的理论运用到P2P数据流的识别中,提出了一种基于流特征描述的模糊识别方法(FCD)。该识别方法能够较好地识别网络流量中的某些网络应用流,对于其他的网络应用流量识别同样适用,具有较好的准确性和可扩展性,第7章对此进行了深入分析和阐述。

本书是项目组集体成果的结晶,他们是宫婧副教授、刘三民博士、焦琳硕士、姜举良硕士、陈松乐博士、卜凯博士、许刘兵硕士、余小芳硕士、颜小倩硕士、高同硕士、张玉峰硕士等,在此书交稿之际,谨向他们对本书做出的贡献表示衷心的感谢。另外,感谢宫婧副教授、刘三民博士、汪胡青博士、何丽萍博士在本书撰写过程中给予的帮助。

感谢我的爱人张娟和儿子孙翌博,他们是我写书的动力所在。

最后要感谢清华大学出版社的领导和编辑,没有他们的辛勤劳动,就没有本书的出版。

孙知信

2014.5于南京邮电大学