工程科学与技术   2021, Vol. 53 Issue (2): 133-140
基于学习自动机与萤火虫算法的链路预测
舒坚1, 李睿瑞1, 熊涛1, 刘琳岚2, 孙利民1     
1. 南昌航空大学 软件学院,江西 南昌 330063;
2. 南昌航空大学 信息工程学院,江西 南昌 330063
基金项目: 国家自然科学基金项目(61762065;61962037);江西省自然科学基金重点项目(20202BABL202039);江西省研究生创新专项项目(YC2020–S559)
摘要: 为了探索便携交换网络的演化规律,研究其网络行为预测中的链路预测问题。便携交换网络具有节点移动性、节点间间歇性连接、高延迟等特点,其链路预测面临的挑战是节点相遇的机会性和拓扑的时变性,获得其高质量链路预测的关键是如何较全面地获取节点的属性。作者提出基于学习自动机和萤火虫算法的链路预测方法(link prediction approach for pocket switched network based on firefly algorithm, FA-LP)。采用学习自动机对节点进行自适应聚类,完成网络的社区划分;定义社区属性影响系数和移动行为影响系数,构建反映便携交换网络社区属性、节点移动性和节点间间歇性连接的相似性指标;将该指标与CN、RA、AA等指标融合,得到便携交换网络的相似性指标向量;借助差分整合移动平均自回归模型的时间序列分析能力,提取相似性指标向量序列的演化规律;采用萤火虫算法优化所构建的二分类器,预测节点对下一时刻的连接状态。INFOCOM2006和MIT两个真实数据下的实验结果表明,与受限玻尔兹曼机、弱评估器等方法相比,FA-LP具有更高的准确率和更好的稳定性。
关键词: 便携交换网络    链路预测    学习自动机    萤火虫算法    
Link Prediction Based on Learning Automaton and Firefly Algorithm
SHU Jian1, LI Ruirui1, XIONG Tao1, LIU Linlan2, SUN Limin1     
1. School of Software, Nanchang Hangkong Univ., Nanchang 330063, China;
2. School of Info. Eng., Nanchang Hangkong Univ., Nanchang 330063, China
Abstract: In order to explore the evolution law of pocket switched network (PSN), the link prediction which is a part of network behavior prediction problem in PSN was studied in this paper. PSN has lots of features such as node mobility, intermittent connection and high latency. The challenges of link prediction are the opportunistic connection and the time-varying topology. The key to obtain high-quality link prediction is how to obtain the attributes of nodes comprehensively. A link prediction method was proposed in the paper, which is based on learning automaton and firefly algorithm (FA-LP). The learning automaton was employed to cluster nodes adaptively so as to complete the community division of the network. The node community attribute influence coefficient and mobile behavior influence coefficient were defined to construct the similarity index which reflects the community attributes, node mobility and intermittent connection between nodes. After fusing the index with CN, RA, AA, etc., a similarity vector of node pairs was achieved. Taking the advantages of analyzing time series of autoregressive integrated moving average model, the evolution law of the vector sequence was extracted. The binary classifier optimized by firefly algorithm was constructed to predict the connection of node pairs at the next moment. The experimental results on INFOCOM2006 and MIT datasets show that the proposed method has better accuracy and better stability than the ones of RBM and week estimators.
Key words: pocket switched network    link prediction    learning automata    firefly algorithm    

便携交换网络(pocket switched network, PSN)是一类特殊的机会网络,内部节点由携带便携式手持设备的人员组成[1],不需要源节点和目标节点之间存在完整链路,利用节点移动带来相遇机会实现数据交换,以“存储—携带—转发”形式进行通信[2]。目前针对PSN网络的研究面临以下挑战:网络行为预测、消息转发[3]、命名的动态性等[4]

研究PSN网络行为预测中的链路预测问题,为PSN的网络演化机制研究及路由、拓扑控制和移动管理等上层协议提供支撑,推动PSN在商品推荐[5]、灾难救援、公共安全领域的事件检测、军事领域等方面的应用[6]。近年来,随着对机会网络研究的深入,研究者提出了多种链路预测方法,但针对PSN网络的链路预测研究较少。与本研究相关的链路预测方法是基于相似性指标的预测方法和基于机器学习的预测方法。

基于相似性指标的预测方法利用网络信息计算节点间的相似性,连接概率与相似性呈正相关。共同邻居[7](common neighbor, CN)指标认为节点的共同邻居越多,相近程度越高,吕琳媛等[8]对CN的改进指标AA(adamic-adar)指标、Sorenson指标、RA(resource allocation index)指标等进行了阐述;Huang等[9]考虑了共同邻居节点间依赖关系的不同,采用贝叶斯分类器计算节点的相似性;Sun[10]引入社区结构的思想,提出局部亲和结构(local affinity structure, LAS)指标以衡量节点间的“紧密度”;Yang等[11]综合考虑节点间最短路径和局部社区内的边聚类系数对节点间产生连接的影响,提出LCAR指标计算节点间的相似性。

基于机器学习的预测方法通过特征提取的方式进行链路预测。Li等[12]结合CN、LHN-II、COS+和MFI,提出基于集合模型的链路预测方法(ensemble-model-based link prediction, EMLP);Chiu等[13]通过建立深层神经网络,以传统相似性度量组成的相似性指标向量作为样本,使用弱评估器评估动态系统中的变化概率;Hao[14]提出将融合的网络特征作为深度置信网络(deep belief network, DBN)的输入,以未来的连接状态作为标签,构建预测模型;Li[15]提出利用受限玻尔兹曼机(restricted Boltzman machine, RBM)处理节点对历史连接信息,将得到的信息作为梯度提升决策树(gradient boosting decision tree, GBDT)的输入,预测节点对未来时刻的连接状态;Butun[16]提出根据网络的三元关系构建三元接近度指标,针对有向动态网络,使用三元组接近度作为训练样本,训练基于模式的有监机器学习模型完成链路预测任务。

学习自动机凭借其不受样本的非均衡性影响,具有良好的噪声鲁棒性,非常适合处理在概率空间寻找全局最优解的问题,经历几十年的发展,其收敛速度有很大的提高,成为解决各种现实问题的重要工具之一[17]。PSN网络具有节点移动性、节点间间歇性连接、高延迟等特点,其链路预测面临的挑战是节点相遇的机会性和拓扑的时变性,因此PSN网络中获得高质量链路预测的关键是如何较全面地获取节点的属性。作者采用学习自动机(learning automata, LA)对节点的属性进行聚类,目的在于使得网络中的每个节点都找到所属社区,以更全面地获取节点的属性。

萤火虫算法(firefly algorithm, FA)[18]属于仿生群智能优化算法,是一种启发式的算法,可解决连续空间的寻优问题,广泛应用于特征值优化、工程结构设计、聚类、参数选择等。作者采用萤火虫算法对所构建二分类器[19]的参数进行优化。

综上所述,针对PSN网络的节点属性和节点移动特性,作者提出基于自动学习机和萤火虫算法的链路预测方法(link prediction approach for pocket switched network based on firefly algorithm, FA-LP)。使用分布式学习自动机处理节点的属性信息,完成节点的自适应聚类过程,实现PSN网络的社区划分;构建反映PSN网络社区属性、节点移动性和节点间间歇性连接的相似性指标(similarity index based on community and mobile behavior, SICM),并对传统相似性指标进行改进;构建链路预测的二分类器模型,借助萤火虫算法在连续空间中高效寻优的优点对其进行优化。

1 社区划分

PSN网络社区划分的目的在于将属性相似的节点尽可能划分在同一个社区内,社区划分的过程如下。

1.1 节点属性的获取

所谓物以类聚,人以群分,在网络中两个节点的属性越相似就越可能产生联系。人们更愿意和与自己年龄相仿、使用相同的语言、地理位置相近的人聊天。PSN网络由人组成,其节点的属性信息相对容易获取。刻画节点的社区属性,最直接的方法就是使用标签,可以根据年龄、职业、教育、兴趣、地理位置、性别、信仰等属性可以将节点划分为不同类型。作者采用MIT发布的真实数据集“the reality mining data”[20],节点拥有许多属性信息如问卷调查结果、上下班时间、通话记录等。

1.2 自适应聚类

根据节点的属性向量完成PSN网络的自适应聚类。学习自动机包含了动作集合和概率集合,如式(1)、(2)所示:

${A} = \{ A_1,A_2, \cdots,A_i,\cdots,A_m\} $ (1)
${P} = \{ {P^{{A{_1}}}},{P^{{A{_2}}}}, \cdots,{P^{{A{_i}}}}, \cdots ,{P^{{A{_m}}}}\} $ (2)

式中, ${A}$ 为学习自动机可执行动作的集合, ${A_i}$ 为执行将节点分配到第 $i$ 个社区的动作, $P$ 为学习自动机执行每个动作所对应概率的集合, ${P^{A_i}}$ 为执行动作 $A{_i}$ 的概率。

假设学习自动机的初始状态为:节点不属于任何社区,且分配到各个社区的概率都相等。自适应聚类过程如下:

1)学习自动机执行根据概率向量中最大值对应的动作,将节点划分到对应的社区。

2)当所有节点被分配到某个社区后,计算每个社区的社区中心。

3)计算节点到本次递归过程的社区中心的欧式距离 ${D_{{\rm{current}}}}$

4)计算节点到上次递归过程的社区中心的欧式距离 ${D_{{\rm{Previous}}}}$

5)通过比较 ${D_{{\rm{current}}}}$ ${D_{{\rm{Previous}}}}$ 的大小判断本次迭代过程的聚类效果,若 ${D_{{\rm{Previous}}}}$ 大于 ${D_{{\rm{current}}}}$ ,则说明本次迭代过程中的聚类效果好,节点根据与其他社区中心的欧式距离更新对应的概率向量,反之说明本次聚类效果不好,概率向量不变。当所有节点所属的社区编号都不发生变化,社区结构趋于稳定时,完成PSN网络的社区划分。

2 相似性指标的构建

定义社区属性影响系数,通过对真实数据集的实验分析,定义移动行为影响系数,构建反映PSN网络社区属性、节点移动性和节点间间歇性连接的相似性指标;将该指标与CN、RA、AA等7种相似性指标融合,得到PSN网络的相似性指标(similarity index of PSN, PSN_SI),从而构建得到PSN网络的相似性指标向量(similarity index vector, SIV)。

2.1 社区属性影响系数

在真实世界中,人们更容易与来自同一社区的成员见面。定义社区属性影响系数(community attribute influence coefficient, CAIC),如式(3)所示:

${\;\;\;\;\;\begin{aligned}[b] &S_{{x_i},{x_j}}^{{\rm{CAIC}}} = \\ &\;\;\;\;\;\;\;\;\left\{ \begin{array}{l} {{\rm{e}}^{ - \frac{{\left| {C({x_i}) + C({x_j})} \right|}}{{2N}} \times \frac{{{\rm{edge}} (C({x_i}),C({x_j}))}}{{{\rm{total}} \_{\rm{edge}}(C({x_i}),C({x_j}))}}}},C({x_i}) \ne C({x_j}); \\ {{\rm{e}}^{\frac{{\left| {C({x_i})} \right|}}{N} \times \frac{{{\rm{edge}} ({x_i},{x_j})}}{{{\rm{total}} \_{\rm{edge}}({x_i},{x_j})}}}},C({x_i}) = C({x_j}) \\ \end{array} \right. \end{aligned}} $ (3)

式中, ${x_i}$ 为第 $i$ 号节点, $S_{{x_i},{x_j}}^{{\rm{CAIC}}}$ 为根据节点 ${x_i}$ 与节点 ${x_j}$ 计算的CAIC得分, $\left| {C({x_i})} \right|$ ${x_i}$ 所在社区的节点数量, $N$ 为PSN网络的节点总数, ${\rm{edge}} (C({x_i}),C({x_j}))$ 为节点 ${x_i}$ ${x_j}$ 所属社区之间的连接数量, ${\rm{total}} \_{\rm{edge}}(C({x_i}),C({x_j}))$ ${x_i}$ ${x_j}$ 所处的两个社区的节点之间可能存在的全部连接数量, ${\rm{edge}} ({x_i},{x_j})$ 为节点 ${x_i}$ ${x_j}$ 之间共同好友之间连接的数量, ${\rm{total}} \_{\rm{edge}}({x_i},{x_j})$ 为节点 ${x_i}$ ${x_j}$ 之间共同好友之间可能存在的全部连接数量。

2.2 移动行为影响系数

通过对Dartmouth数据集的分析,发现节点连接的访问接入点(access point, AP)数量越多,则连接的移动节点数量也越多[21]。节点连接的AP数量代表了节点活跃度,节点活跃度的不同直接影响了节点与其他节点产生连接的概率。

为了说明PSN网络中节点的活跃度与节点连接AP数量之间的关系,随机从MIT数据集的97个移动节点中抽取8个节点(95、97、88、93、69、20、27、26),统计8个节点连接的移动节点数量和连接的AP数量,统计结果如图1所示。

图1 移动节点数量和AP数量的分布 Fig. 1 Distribution of the number of mobile nodes and the number of AP

图1可以看出,节点连接的AP数量越多,该节点连接的移动节点数量也越多,即节点连接的AP数量与节点连接的移动节点数量之间成正相关关系。

PSN网络中连接的产生并不是完全偶然的,节点更倾向靠近与自身拥有相似连接的节点。随机从MIT数据集抽取2个节点(21、52),统计与其他节点的连接次数以及节点对的共同邻居节点数,部分统计结果如图23所示。

图2 21号节点连接分布情况 Fig. 2 Distribution of node 21 connections

图3 52号节点连接分布情况 Fig. 3 Distribution of node 52 connections

图23中可以看出,随着节点对之间的共同节点数量增加,节点对之间的连接次数也增加。

通过分析节点的连接数与节点连接的AP数量、节点间连接的共同节点之间的关系,提出节点连接AP影响系数(node of access point coefficient, NAPC)与节点对共同连接节点影响系数(node pair common connect node coefficient, CCNC),如式(4)、(5)所示:

${\;\;\;\;\;\;\;\;\;\;S_{{x_i},{x_j}}^{{\rm{NAPC}}}} = \ln (\left| {{F_{\rm{AP}}} ({x_i})} \right|) + \ln (| {F_{\rm{AP}} ({x_j})} |)$ (4)

式中, $S_{{x_i},{x_j}}^{{\rm{NAPC}}}$ 为根据节点 ${x_i}$ 与节点 ${x_j}$ 计算的NAPC得分, ${F_{\rm{AP}}} ({x_i})$ 为与节点 ${x_i}$ 相连AP集合的函数。

$S_{{x_i},{x_j}}^{{\rm{CCNC}}} = {{\rm{e}}^{\frac{{\left| {{F_{\rm link}} ({x_i}) \cap {F_{\rm link}} ({x_j})} \right|}}{{\left| {{F_{\rm link}} ({x_i}) \cup {F_{\rm link}} ({x_j})} \right|}}}}$ (5)

式中, $S_{{x_i},{x_j}}^{{\rm{CCNC}}}$ 为根据节点 ${x_i}$ 与节点 ${x_j}$ 计算的CCNC得分, ${F_{\rm link}} ({x_i})$ 为与节点 ${x_i}$ 相连节点集合的函数。

2.3 相似性指标向量

基于上述研究,构建反映PSN网络社区属性、节点移动性和节点间间歇性连接的相似性指标SICM,如式(6)所示:

${\;\;\;\;\;\;\;\;\;\;S_{{x_i},{x_j}}^{{\rm{SICM}}}} = \alpha \times S_{{x_i},{x_j}}^{{\rm{NAPC}}} + (1 - \alpha )\times S_{{x_i},{x_j}}^{{\rm{CCNC}}}\times S_{{x_i},{x_j}}^{{\rm{CAIC}}}$ (6)

式中, $S_{{x_i},{x_j}}^{{\rm{SICM}}}$ 为根据节点 ${x_i}$ 与节点 ${x_j}$ 计算的SICM得分, $\alpha $ 为0到1之间的可调权重参数。将相似性指标SICM与反映网络拓扑信息的7种相似性指标CN、Sorenson、RA、AA、Salton、Jaccard、HDI[8]分别进行融合,得到PSN网络的相似性指标PSN_SI。将得到的PSN_SI指标进一步组合得到PSN网络的相似性指标向量 ${{{V}}_{{\rm{SIV}} }}$ ,如式(7)所示,并作为差分整合移动平均自回归模型(autoregressive integrated moving average model, ARIMA)的输入。

${\;\;\;\;\;\;\;\;\begin{aligned}[b] {{{V}}_{{\rm{SIV}} }} =& (S_{{x_i},{x_j}}^{{\rm{W\_CN}}},S_{{x_i},{x_j}}^{{\rm{W\_Sorenson}}},S_{{x_i},{x_j}}^{{\rm{W\_RA}}}, \\ &S_{{x_i},{x_j}}^{{\rm{W\_AA}}},S_{{x_i},{x_j}}^{{\rm{W\_Salton}}},S_{{x_i},{x_j}}^{{\rm{W\_Jaccard}}},S_{{x_i},{x_j}}^{{\rm{W\_HDI}}}) \end{aligned}} $ (7)

式中: $S_{{x_i},{x_j}}^{{\rm{W\_CN}}} = S_{{x_i},{x_j}}^{{\rm{SICM}}}\times S_{{x_i},{x_j}}^{{\rm{CN}}}$ $S_{{x_i},{x_j}}^{{\rm{CN}}}$ 为根据节点 ${x_i}$ 与节点 ${x_j}$ 计算的CN得分,与SICM得分相乘得到改进后的W_CN得分;同理 $S_{{x_i},{x_j}}^{{\rm{W\_Sorenson}}}$ 由SICM得分与Sorenson得分相乘得到; $S_{{x_i},{x_j}}^{{\rm{W\_RA}}}$ 由SICM得分与RA得分相乘得到; $S_{{x_i},{x_j}}^{{\rm{W\_AA}}}$ 由SICM得分与AA得分相乘得到; $S_{{x_i},{x_j}}^{{\rm{W\_Salton}}}$ 由SICM得分与Salton得分相乘得到; $S_{{x_i},{x_j}}^{{\rm{W\_Jaccard}}}$ 由SICM得分与Jaccard得分相乘得到; $S_{{x_i},{x_j}}^{{\rm{W\_HDI}}}$ 由SICM得分与HDI得分相乘得到。在此选取的7个传统相似性指标从不同的角度解释网络形成的原因,每种相似性指标都有各自适用的场景,通过后续分类器自适应地确定每个PSN_SI指标的权重。

3 链路预测模型

链路预测模型的构建过程如下。

3.1 时间序列分析

采用ARIMA对相似性指标向量序列进行时间序列分析,提取相似性指标向量随时间的变化的规律,具体步骤如下:

1)计算节点对在每个网络快照中的相似性指标向量,构成相似性指标向量序列 ${{{V}}_{{\rm{SIVS}} }}$ (similarity index vector sequence, SIVS),如式(8)所示:

${\;\;\;\;\;\;\;\;\;\;\;\;\;{{V}}_{{\rm{SIVS}} }} = ({{V}}_{{\rm{SIV}} }^1,{{V}}_{{\rm{SIV}} }^2, \cdots ,{{V}}_{{\rm{SIV}} }^{t - 1},{{V}}_{{\rm{SIV}} }^t)$ (8)

2)采用单位根检验(augmented Dickey–Fuller test, ADF)方法对相似性指标向量序列进行平稳性检验。若不平稳,则进行差分运算将其转换为平稳序列。

3)根据自相关函数和偏自相关函数确定模型的滞后值 $p$ 和滑动窗口 $q$ 的大小。

4)根据最小信息准则(Akaike information criterion, AIC)对ARIMA模型参数寻优,在保证模型拟合程度的前提下得到最优参数。

采用窗口滑动截取相似性指标向量序列输入ARIMA模型,根据式(9)预测节点对下一时刻的SIV向量,以对应连接状态为标签,组成样本,作为二分类器的输入。

${{V}}_{{\rm{SIV}} }^t = {\rm{ARIMA}} ({{{V}}_{{\rm{SIV}} {\rm{S}}}})$ (9)
3.2 二分类器的构建

线性分类是一种使用超平面对数据进行分类的高效算法,对于 $n$ 维空间使用 $n - 1$ 维的超平面作为的分隔符,将数据分为两个部分,使用式(10)计算数据所述的分类结果:

${\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;R_{{\rm{class}} }}(x) = {\rm{sign}} ({{{V}}_{{\rm{SIV}} }} \odot {{w}} + {{{w}}_0})$ (10)

式中: ${ w}$ 为超平面的权重向量; ${{ w}_0}$ 为超平面的基; $ \odot $ 为向量的点乘; ${\rm{sign}} ( \cdot )$ 为符号函数,当 ${{{V}}_{{\rm{SIV}} }} \odot {{w}} + {{{w}}_0}$ 大于0时返回1,反之则返回–1。

通过将节点对的特征向量与超平面的权重向量进行点乘运算,判断其正负,完成节点对的链路预测。因此,二分类器的构建关键在于寻找最优超平面的权值向量。

3.3 二分类器的优化

萤火虫算法可以在连续空间中高效地寻找二分类器最优的超平面,寻找过程即二分类器的优化过程,具体步骤如下:

1)初始化种群。随机初始化 $N$ 只萤火虫,每只萤火虫代表一组超平面的权重向量,表示为 ${{w}} = ({w_1}, {w_2}, \cdots ,{w_7})$

2)计算适应度。使用每组权重参数对训练集数据进行分类,使用式(11)计算权重参数的适应度。

${S^{{\rm{Fitness}}}} = \frac{{\left| {{N_{\rm Sample\_C}}} \right|}}{{\left| {{N_{\rm Sample}}} \right|}}$ (11)

式中, ${S^{{\rm{Fitness}}}}$ 为超平面的适应度得分, $\left| {{N_{\rm Sample\_C}}} \right|$ 为正确分类的样本数,即 ${R_{{\rm{class}} }}(x)$ 与边连接情况一致的样本数, $\left| {{N_{\rm Sample}}} \right|$ 为总样本数。

3)更新种群位置。根据萤火虫算法的个体移动规则[19],适应度低的权重参数向适应度高的权重参数移动,适应度最高的权重参数进行随机移动。

4)当满足停止条件或达到最大迭代次数时,返回适应度最高的权重向量,反之则返回步骤2)。

经过萤火虫算法的优化后,使用返回的最佳权重向量作为线性分类器的超平面,完成分类,预测节点对下一时刻的连接情况。

4 实验设计与分析

通过真实数据集下的实验验证相似性指标PSN_SI和FA-LP方法。

4.1 实验数据集

采用两种稀疏程度不一的PSN网络作为验证的数据集,数据集信息见表1

表1 实验数据集 Tab. 1 Experimental dataset

INFOCOM2006数据集记录了2006年在巴西巴塞罗那为期4 d的会议期间,78位参加学术研讨会并携带iMote通信设备的用户与固定节点之间的连接记录;MIT数据集是麻省理工大学97名实验人员携带蓝牙设备通信情况,由于校园范围大、学生的作息习惯致使晚上记录极为稀疏。由于有的节点较早退出,有的节点较晚加入,为避免网络中节点的个数发生变化,在此截取所有节点都处于活跃期的30 d数据。

4.2 评价指标

使用受试者工作特征曲线下的面积(area under the curve, AUC)和准确率Precision作为链路预测结果的评价指标。

AUC可以简单理解为从测试边集和不存在边集中各取一条边,比较两者相似性的高低,如果测试边相似性大于不存在边则加1分,相等则加0.5分。AUC定义如式(12)所示,用字母H统一表示评价指标相关变量。

${H_{{\rm{AUC}}}} = \frac{{n' + 0.5n''}}{n}$ (12)

式中, $n$ 为独立比较次数, $n'$ 为测试边分数大于不存在边分数的次数, $n''$ 为分数相同的次数。

预测方法对正样本的正确识别比率被称为Precision,它能反映出模型对正样本的准确识别的程度,文中的正样本是在未来时刻即将出现的连接。Precision只关心前L条边中预测正确的边所占比例,定义如式(13)所示:

${H_{{\rm{Precision}}}} = \frac{m}{L}$ (13)

式中, $m$ 为预测正确边个数。

4.3 SICM指标的验证

通过选取不同的切片时长,在INFOCOM2006和MIT数据集上验证SICM指标的有效性和稳定性。

INFOCOM2006数据集的时间切片长度分别为210、240、270、300、360、430 min,对应的切片数量分别为20、18、16、14、12、10;MIT数据集上的切片时长分别为0.5、1.0、1.5、2.0、3.0、6.0 d,对应的切片数量分别为60、30、20、15、10、5。

相似性指标PSN_SI的AUC值随切片数量变化的趋势如图45所示。

图4 INFOCOM2006数据集上的AUC值对比 Fig. 4 Comparison of AUC values on the INFOCOM2006 dataset

图5 MIT数据集上的AUC值对比 Fig. 5 Comparison of AUC values on the MIT dataset

图4可以看出,各个指标均随切片数目的减少而提高了预测效果,且提高的幅度基本一致,但W_HDI低于其他指标。

图5中可以看出,W_RA、W_AA比其他指标在AUC上的表现更好,但在切片数为15时却不如W_CN和W_Salton。通过实验可以得出,虽然PSN_SI中各个指标的表现有所区别,但总体而言都能较好的对PSN网络进行链路预测,预测的效果较平稳。

为了进一步说明相似性指标PSN_SI的有效性,使用Precision作为评价指标,在上述时间切片下使用相似性指标PSN_SI进行链路预测的实验,实验结果如图67所示。

图6 INFOCOM2006数据集上的Precision值对比 Fig. 6 Comparison of Precision values on the INFOCOM2006 dataset

图7 MIT数据集上的Precision值对比 Fig. 7 Comparison of Precision values on the MIT dataset

从实验结果来看,在不同的数据集与切片数量的情况下,PSN_SI都可以较好地获取链路变化的潜在特征,从而进行链路预测。由图6可知,在INFOCOM2006数据集下切片数量为10时,不同的PSN_SI均有较好的Precision表现,且W_CN指标表现最佳。由图7可知,所有的PSN_SI均存在波动的情况,Precision在0.561~0.881之间,W_CN比其他PSN_SI的预测效果更好。

在INFOCOM2006和MIT数据集中选取上述切片数进行改进前后指标的对比实验,得到的AUC和Precision结果如表23所示。

表2 在INFOCOM2006和MIT数据集中不同的切片数下各指标AUC的对比 Tab. 2 Comparison of AUC in different number of time slices in INFOCOM2006 and MIT

表3 在INFOCOM2006和MIT数据集中不同的切片数下各指标Precision的对比 Tab. 3 Comparison of Precision in different number of time slices in INFOCOM2006 and MIT

通过表23的实验结果可以看出:无论是在AUC还是在Precision上,改进后的指标在绝大多数情况下比改进前的指标效果好。在AUC方面,相似性指标PSN_SI相比于常见的相似性指标的预测准确率均有所提高且性能稳定;不同的相似性指标在不同切片数量情况下Precision指标值波动较大,在不同数据集中表现差异较大。改进后的相似性指标在两个数据集上不同切片数量情况下的实验结果并不会大幅发生变化,从而表明改进后的相似性指标具有良好的稳定性。

4.4 预测性能比较

在INFOCOM2006、MIT数据集上,进行FA-LP方法与支持向量分类(support vector classification, SVC)、K邻近算法(K-nearest neighbor, KNN)、WEAK[13]、DBN[14]、RBM[15]方法的对比。在INFOCOM2006数据集上,设置萤火虫算法的初始种群数量为200,迭代次数为150,时间帧长度为270 s,输入序列长度为9;在MIT数据集上,设置萤火虫算法的初始种群数量为250,迭代次数为120,时间帧长度为240,输入序列长度为8。时间帧长度根据文献[22]中所提的混沌时间序列理论确定,使用计算得出最佳切片时长对网络进行时间切分,可以使网络切片之间的最大限度地保留图的演变信息。作者统计了30次对比实验的结果,采用AUC作为预测方法的指标评价。作者提出的FA-LP方法与SVC、KNN、WEAK、DBN、RBM方法在INFOCOM2006数据集下取得的AUC如图8所示,上述方法在MIT数据集下取得的AUC如图9所示。并在表4中给出了上述方法在INFOCOM2006和MIT数据集中取得的AUC均值。

图8 INFOCOM2006中不同方法的AUC值 Fig. 8 AUC values of different methods in INFOCOM2006

图9 MIT中不同方法的AUC值 Fig. 9 AUC values of different methods in MIT

表4 在INFOCOM2006和MIT数据集中各种预测方法的AUC均值 Tab. 4 AUC averages of different prediction methods in INFOCOM2006 and MIT

在INFOCOM2006和MIT两个稀疏程度不同的数据集上,基于DBN方法和提出的FA-LP方法较SVC、KNN、WEAK等方法在预测性能上表现更加稳定;在两个数据集上,基于DBN模型的AUC值在0.92左右,而FA-LP的AUC值在0.94以上,甚至在INFOCOM2006数据集上,FA-LP的AUC值达到了0.95。在两个数据集的实验中,FA-LP比其他方法都有最高的AUC值,这说明FA-LP方法能够有效地提取PSN网络的连接特征,达到更好的链路预测结果。

5 结 论

作者采用学习自动机对节点的属性进行聚类,构建反映PSN网络社区属性、节点移动性和节点间间歇性连接的相似性指标 SICM,从而更好地反映节点相遇的机会性和拓扑的时变性,采用萤火虫算法优化二分类器,从而获得更高的准确率和更好的稳定性。但是,文中仅探讨了PSN网络单节点对的链路预测方法,下一步的研究方向为PSN网络中多节点对间的链路预测。

参考文献
[1]
Amah T E,Kamat M,Moreira W,et al. Towards next-generation routing protocols for pocket switched networks[J]. Journal of Network and Computer Applications, 2016, 70: 51-88. DOI:10.1016/j.jnca.2016.05.011
[2]
Xiong Yongping,Sun Limin,Niu Jianwei,et al. Opportunistic networks[J]. Journal of Software, 2009, 20(1): 124-137. DOI:10.3724/sp.j.1001.2009.00124
[3]
Bayir M A,Demirbas M. On the fly learning of mobility profiles for routing in pocket switched networks[J]. Ad Hoc Networks, 2014, 16: 13-27. DOI:10.1016/j.adhoc.2013.11.011
[4]
Liu Tang,Peng Jian,Yang Jin. Efficient data routing protocol for multi-monitoring-task mobile sensor networks[J]. Advanced Engineering Sciences, 2017, 49(2): 177-185. [刘唐,彭舰,杨进. 多监控任务移动传感器网络高效数据路由协议[J]. 工程科学与技术, 2017, 49(2): 177-185. DOI:10.15961/j.jsuese.201601192]
[5]
Batabyal S,Bhaumik P.Analysis of social structure and routing in human based delay tolerant network[C]//Proceedings of the 17th ACM International Conference on Modeling,Analysis and Simulation of Wireless and Mobile Systems (MSWiM’14).New York:ACM,2014:169–176.
[6]
Machado K,Boukerche A,Vaz de Melo P O S,et al.Exploring seasonal human behavior in opportunistic mobile networks[C]//Proceedings of the 2016 IEEE International Conference on Communications (ICC).Kuala Lumpur:IEEE,2016:1–6.
[7]
Yao Lin,Wang Luning,Pan L,et al. Link prediction based on common-neighbors for dynamic social network[J]. Procedia Computer Science, 2016, 83: 82-89. DOI:10.1016/j.procs.2016.04.102
[8]
Lü L,Zhou Tao. Link prediction in complex networks:A survey[J]. Physica A(Statistical Mechanics and Its Applications), 2011, 390(6): 1150-1170. DOI:10.1016/j.physa.2010.11.027
[9]
Huang Hongcheng,Wei Qing,Hu Min,et al. Links prediction based on hidden naive Bayes model[J]. Journal of Sichuan University(Engineering Science Edition), 2016, 48(4): 150-157. [黄宏程,魏青,胡敏,等. 基于隐朴素贝叶斯模型的链接预测算法[J]. 四川大学学报(工程科学版), 2016, 48(4): 150-157. DOI:10.15961/j.jsuese.2016.04.021]
[10]
Sun Qingshuang,Hu Rongjing,Yang Zhao,et al.An improved link prediction algorithm based on degrees and similarities of nodes[C]//Proceedings of the 2017 IEEE/ACIS 16th International Conference on Computer and Information Science (ICIS).Wuhan:IEEE,2017:13–18.
[11]
Yang Xuhua,Zhang Haifeng,Ling Fei,et al. Link prediction based on local community properties[J]. International Journal of Modern Physics B, 2016, 30(31): 1650222. DOI:10.1142/s0217979216502222
[12]
Li Kuanyang,Tu Lilan,Chai Lang. Ensemble-model-based link prediction of complex networks[J]. Computer Networks, 2020, 166: 106978. DOI:10.1016/j.comnet.2019.106978
[13]
Chiu C,Zhan J. Deep learning for link prediction in dynamic networks using weak estimators[J]. IEEE Access, 2018, 6: 35937-35945. DOI:10.1109/ACCESS.2018.2845876
[14]
Hao Yixue,Usama M,Yang Jun,et al. Recurrent convolutional neural network based multimodal disease risk prediction[J]. Future Generation Computer Systems, 2019, 92: 76-83. DOI:10.1016/j.future.2018.09.031
[15]
Li Taisong,Wang Bing,Jiang Yasong,et al. Restricted Boltzmann machine-based approaches for link prediction in dynamic networks[J]. IEEE Access, 2018, 6: 29940-29951. DOI:10.1109/ACCESS.2018.2840054
[16]
Bütün E,Kaya M. A pattern based supervised link prediction in directed complex networks[J]. Physica A(Statistical Mechanics and Its Applications), 2019, 525: 1136-1145. DOI:10.1016/j.physa.2019.04.015
[17]
Zhang Feng,Wang Xiaoming,Zhang Lichen,et al. A Cellular-learning-automata-based congestion control strategy in opportunistic networks[J]. Journal of Sichuan University(Engineering Science Edition), 2016, 48(1): 158-165. [张峰,王小明,张立臣,等. 机会网络中基于元胞学习自动机的拥塞控制策略[J]. 四川大学学报(工程科学版), 2016, 48(1): 158-165. DOI:10.15961/j.jsuese.2016.01.024]
[18]
Tian Mengchu,Bo Yuming,Chen Zhimin,et al. A new improved firefly clustering algorithm for SMC-PHD filter[J]. Applied Soft Computing, 2019, 85: 105840. DOI:10.1016/j.asoc.2019.105840
[19]
AlAbdallah R,Jaradat A,Doush I,et al. A binary classifier based on firefly algorithm[J]. Jordanian Journal of Computers and Information Technology, 2017, 3(3): 172. DOI:10.5455/jjcit.71-1501152301
[20]
Eagle N,Pentland A,Lazer D. Inferring friendship network structure by using mobile phone data[J]. Proceedings of the National Academy of Sciences of the United States of America, 2009, 106(36): 15274-15278. DOI:10.1073/pnas.0900282106
[21]
Wang Shengling,Liu Min,Cheng Xiuzhen,et al. Routing in pocket switched networks[J]. IEEE Wireless Communications, 2012, 19(1): 67-73. DOI:10.1109/mwc.2012.6155878
[22]
Cai Xulin,Shu Jian,Al–Kali M. Link prediction approach for opportunistic networks based on recurrent neural network[J]. IEEE Access, 2019, 7: 2017-2025. DOI:10.1109/ACCESS.2018.2886360