摘要:社交网络中,节点间存在多种关系类型,节点数量会随着时间的推移而变化,这种异质性和动态性给链路预测任务带来极大的挑战。因此,本文提出一种基于增量学习的社交网络链路预测方法(incremental learning social networks link prediction,IL–SNLP)。通过对网络进行分层,使每一层网络只包含一种关系类型,以更好地获取节点在每种关系类型下的语义信息;针对网络的动态性,利用时序随机游走捕获社交网络中的局部结构信息和时序信息;针对增量数据,采用增量式更新随机游走策略对历史随机游走序列进行更新。通过增量式skip–gram模型从随机游走序列中提取新出现节点的特征,并进一步更新历史节点的特征;针对网络的异质性,采用概率模型提取不同关系类型之间的因果关系关联程度,并将其作用于每一层的节点特征,以改善不同关系层下节点特征表现能力;利用多层感知机构建节点相互感知器,挖掘节点间建立连接时的相互贡献,实现更高的链路预测准确率。实验结果表明,在3个真实的社交网络数据集上,IL–SNLP方法的ROC曲线下的面积(AUC)和F1分数比基线方法分别提高了10.08%~67.60%和1.76%~64.67%,提升了预测性能;对于增量数据,只需要少次迭代就能保持预测模型的性能,提高了模型训练的速度;与未采用增量学习技术的IL–SNLP−方法相比,IL–SNLP方法在时间效率上提升了30.78%~257.58%,显著缩短了模型的运行时长。
摘要:针对谱聚类在尺度参数计算时需要人为设置近邻参数及聚类结果不稳定等问题,本文将初始类中心值和尺度参数作为决策变量,重点对谱聚类算法进行自适应优化与改进。首先,将样本邻域标准差的倒数作为度量样本局部密度的参数,与密度峰值思想相结合,设计了一种基于密度峰值的初始类中心决策值选择方法(initial class center decision value algorithm based on density peak,DP_KD),解决密度调整谱聚类中聚类结果不稳定的问题。其次,利用样本间的平均距离计算相应的邻域半径,并根据样本标准差自适应地求解每个样本的尺度参数,构造样本间的相似度矩阵,实现了近邻参数的自适应设置,解决尺度参数需要人为设置的问题。然后,基于优化后的初始类中心决策值和近邻参数方法,进一步调整高斯核函数,提出一种基于邻域标准差的密度调整谱聚类算法(density adjusted spectral clustering algorithm based on neighborhood standard deviation,DSSD),通过构建特征向量空间实现了密度谱聚类。最后,将提出的算法与其他聚类算法在多个数据集上进行了对比。结果表明,与其他谱聚类算法相比,本文提出的DSSD算法不仅具有更好的聚类效果,且聚类结果更加稳定,尤其是在类内密集且类间边缘明确的DIM512数据集中,DSSD算法可以正确地进行聚类分簇;在准确率、兰德系数和F–measure上较其他算法至少提升了0.026 8、0.013 6和0.024 7,这表明DSSD算法不仅聚类效果较好且更适合大规模数据集的聚类分析。