基于集成学习的山区中小流域滑坡易发区早期识别优化试验

刘海知 徐辉 包红军 鲁恒 宋巧云 狄靖月 王蒙 曹爽

刘海知, 徐辉, 包红军, 等. 基于集成学习的山区中小流域滑坡易发区早期识别优化试验 [J]. 工程科学与技术, 2022, 54(6): 12-20. doi: 10.15961/j.jsuese.202200733
引用本文: 刘海知, 徐辉, 包红军, 等. 基于集成学习的山区中小流域滑坡易发区早期识别优化试验 [J]. 工程科学与技术, 2022, 54(6): 12-20. doi: 10.15961/j.jsuese.202200733
LIU Haizhi, XU Hui, BAO Hongjun, et al. Optimization Experiment of Early Identification of Landslides Susceptibility Areas in Medium and Small Mountainous Catchment Based on Ensemble Learning [J]. Advanced Engineering Sciences, 2022, 54(6): 12-20. doi: 10.15961/j.jsuese.202200733
Citation: LIU Haizhi, XU Hui, BAO Hongjun, et al. Optimization Experiment of Early Identification of Landslides Susceptibility Areas in Medium and Small Mountainous Catchment Based on Ensemble Learning [J]. Advanced Engineering Sciences, 2022, 54(6): 12-20. doi: 10.15961/j.jsuese.202200733

基于集成学习的山区中小流域滑坡易发区早期识别优化试验

基金项目: 国家重点研发计划项目(2019YFC1510702);国家气象中心预报员专项课题(Y202105);中国气象局创新发展专项(CXFZ2022J019)
详细信息
    • 收稿日期:  2022-07-19
    • 网络出版时间:  2022-11-11 10:56:32
  • 作者简介:

    刘海知(1991—),男,工程师. 研究方向:地质灾害气象风险预警. E-mail:Lhz1012@aliyun.com

    通信作者:

    徐辉, E-mail: xuhui@cma.gov.cn

  • 中图分类号: P642

Optimization Experiment of Early Identification of Landslides Susceptibility Areas in Medium and Small Mountainous Catchment Based on Ensemble Learning

  • 摘要: 滑坡作为山洪水沙耦合运动的物源和动力基础,其易发区的识别是山洪水沙灾害预报预警和风险评估的重要前提。以往的山洪水沙灾害防治研究主要关注洪水的影响,而忽视了固体物源的作用。为完善山区中小流域山洪水沙灾害防控体系,提出基于集成学习的山区中小流域滑坡易发区早期识别方法,并对数据样本构建和影响因子选取过程进行优化试验。将滑坡单元下垫面环境因子频率比作为无监督学习算法数据样本进行聚类分析;根据聚类算法易发性分区结果选取非滑坡单元,并结合滑坡单元构建集成学习分类算法数据样本集,比较单体算法和融合算法的易发性分区结果准确率和覆盖度。选取研究区域高分卫星遥感影像建立松散堆积物直接解译标志,基于目视解译识别松散堆积物面积,通过回归分析构建松散堆积物面积–体积幂律关系,形成研究区域松散堆积物空间分布图。将固体物源作为下垫面环境因子,比较引入物源因子前后的滑坡易发性分区结果准确率和覆盖度。结果表明:K-Means–RF、K-Means–AdaBoost融合算法输出的高易发区覆盖率相对于K-Means单体算法分别提高9.3%、12.1%。两类融合算法的易发性分区准确率和泛化能力比较接近,K-Means–AdaBoost融合算法对于滑坡点的预测效果更优。考虑物源因子后的K-Means–RF和K-Means–AdaBoos融合算法易发性分区中的高易发区覆盖率分别提高14.2%和17.7%,召回率均提高12.1%。

     

    Abstract: Landslides are the source and dynamic basis of the coupled movement of flash flood and sediment disaster in mountainous, the identification of landslide susceptibility areas is an important prerequisite for flash flood and sediment disasters prediction-prewarning and risk assessment. In the past, research about flash floods and sediment disaster prevention and control paid attention to the flood’s role while ignoring the effect of mass sources. To improve the prevention and control system of flash flood and sediment disasters in the medium and small mountainous catchments, a landslide susceptibility area early identification method based on ensemble learning was proposed, and an optimization experiment for data sample construction and influence factor selection process was conducted. The frequency ratio of factors on the underlying surface of landslide units was used as unsupervised learning algorithm data samples for clustering analysis, and non-landslide units are selected based on clustering algorithm susceptibility partitioning, which constituted ensemble learning algorithm data samples for landslide susceptibility partitioning with landslide units. Accuracy and coverage of the results of landslide susceptibility partitioning for medium and small mountainous catchment was compared between the simplex algorithms and fusion algorithms. The accuracy and coverage of landslide susceptibility identification were compared before and after the introduction of the mass-source as the underlying surface factor. Direct interpretation signs of loose deposits in the study area was established through high-resolution satellite remote sensing images, loose deposits area in the study area was identified through visual interpretation, area-volume power law relationship of loose deposits was established through regressive analysis and the distribution of the loose deposits in the study area was obtained. The mass source was regarded as the underlying surface factor, and the accuracy and coverage of landslide susceptibility areas results before and after the introduction of the source factor were compared. Results showed that the coverage rate of the K-means–RF and K-Means–AdaBoost fusion algorithm was 9.3%, 12.1% higher than the K-Means simplex algorithm, the accuracy and generalization ability of the two types of fusion algorithms were relatively similar, and the K-Means-AdaBoost fusion algorithm had a better prediction effect for landslides. The coverage of high susceptibility areas in the susceptibility partitioning of the K-Means–RF and K-Means–AdaBoost fusion algorithms after considering the object source factor was improved by 14.2% and 17.7%, respectively, and the recall rate was both improved by 12.1%.

     

  • 滑坡是中国西部山区的一种典型自然灾害,汶川大地震后的破碎山体、岩体经过长时间风化作用形成的大量潜在固体物源在重力侵蚀和水力坡面侵蚀的共同作用下被带入沟道,成为山洪水沙灾害的主要泥沙补给[1]。目前,山洪水沙灾害的防治主要关注洪水的影响,忽视了洪水和泥沙的共同作用[2-4],滑坡作为山洪水沙耦合运动的重要物源基础,其易发区的识别是山洪水沙灾害预报预警和风险评估的重要前提[5-8]。近年来,随着遥感数据处理技术的升级和计算机科学的快速发展,基于卫星遥感的滑坡信息提取已经成为流域尺度滑坡易发性早期识别的主要方法。宿方睿等[9]采用面向对象分类法并结合目视解译提高了遥感影像滑坡解译的成功率。Xu等[10]基于地震触发的滑坡数据改进了滑坡体积的估算方法。黄润秋等[11]根据高分辨率卫星影像数据目视解译出6877个地质灾害点。此外,人工智能和模糊数学领域的技术方法也被更多地应用于样本数量少、影像光谱信息匮乏区域的灾害易发性识别研究[12-15]。张帅等[16]利用区域生长算法和形态学实现了黄土高原巴谢河流域未解译典型滑坡的识别。Ding等[17]提出基于纹理变化检测和卷积神经网络的滑坡自动识别方法。Huang等[18]使用汶川地震后60个流域的实测泥石流体积数据集开发混合机器学习模型。张群等[19]采用了3种方案建立了BP神经网络模型预测滑坡体积。目前,大多数滑坡易发性早期识别工作对于非滑坡单元的选取及数据样本的构建过程仍较为主观,也未将固体物源作为主要影响因子。本文从分区算法和影响因子的角度对山区小流域的滑坡易发性识别方法进行优化试验,评估单体算法和融合算法对于滑坡易发区的识别效果,并比较考虑物源因子前后的滑坡易发性分区结果。

    寿溪河流域位于四川省阿坝藏族羌族自治州汶川县内,属于川西多雨中心区。流域集水面积约554 km2,地理位置在东经103°02′04″~103°26′56″,北纬30°47′42″~31°02′19″,海拔895~4 952 m。流域内地形复杂、沟谷纵横,是典型的山区流域。流域内降水年内分配不均,大部分集中于6—9月,且多为短时强降水,滑坡点主要分布于河谷两岸区域,如图1所示。

    图  1  研究区及滑坡分布
    Fig.  1  Research area and landslides distribution
    下载: 全尺寸图片

    滑坡信息主要通过对遥感影像中的地物特征进行提取而获得,遥感影像采用斯波特(Satellite Pour l’Observation de la Terre,SPOT)7号卫星全色遥感影像图。影响滑坡发生的环境因子很多,考虑到易发区早期识别优化算法在更大范围的适用性,选取应用范围较广的环境因子对研究区域滑坡易发性进行分析。针对滑坡易发性的大量研究中,常将地形因子、地质因子、土壤因子、土地利用、植被覆盖及水文环境作为主要评价因子[20]。本文将坡度、坡向、地形曲率、地形粗糙度作为地形因子,将地层岩性和距断层距离作为地质因子,将土壤类型作为土壤因子,将土地利用类型作为土地利用因子,将归一化植被指数作为植被覆盖因子,将汛期降水量作为水文环境因子。数字高程模型(digital elevation model,DEM)选用对地观测卫星(advanced land observing satellite,ALOS)相控阵型L波段合成孔径雷达采集的DEM数据,来源于美国国家航空航天局(National Aeronautics and Space Administration,NASA)官方网站;坡度、坡向、地形曲率及地面粗糙度数据基于DEM空间分析生成;土地利用数据、土壤类型数据、植被覆盖数据来源于中国科学院资源环境科学与数据中心;地层岩性和断层数据来源于91卫图助手软件地质图;降水数据采用的是国家气象信息中心研发的中国区域高时空分辨率多源融合降水近实时实况分析产品(China Meteorological Administration Multisource Precipitation Analysis System,CMPAS),该产品可为山区小流域等自动观测站分布密度极小的区域提供精细化降水实况数据。以上数据来源与精度见表1

    表  1  数据来源与精度
    Table  1  Data source and resolution
    数据类型 数据来源 数据精度
    SPOT卫星遥感影像(2018年) 欧洲航天局官方网站
    https://earth.esa.int/
    1.5 m
    DEM 美国国家航空航天局官方网站
    https://search.asf.alaska.edu/#/
    12.5 m
    土地利用类型(2018年) 中国科学院资源环境科学与数据
    中心
    http://www.resdc.cn/
    30 m
    土壤类型 30 m
    植被覆盖(2018年) 30 m
    地层岩性 91卫图助手
    https://www.91weitu.com/
    1∶50万
    断层 1∶50万
    降水 国家气象信息中心
    http://www.nmic.cn/
    0.01 (°)/h

    1)频率比算法

    统计方法在滑坡易发区识别中应用最为广泛,基于统计方法对环境因子进行分析时多采用频率比(式(1))对环境因子进行属性划分,故从训练样本集中获取滑坡易发性与基础环境因子之间的关系:

    $$ F{r_j}^i = \frac{{{N_j}^i/N}}{{{S_j}^i/S}} $$ (1)

    式中, $F{r_j}^i $ 为环境因子i的第j个等级的频率比, ${N_j}^i $ 为在环境因子i的第j个等级下滑坡发生的数量,N为研究区滑坡发生的总数量, ${S_j}^i $ 为研究区影响因子i的第j个等级下所对应的面积,S为研究区的总面积。通过频率比算法能将环境因子离散化,改变环境因子属性值粒度[21],也能将环境因子属性值转换为反映滑坡易发性的信息值,进而分析滑坡分布与环境因子各等级分区的关系。

    2)易发度分类算法

    滑坡的易发性问题在一定程度上可以表示为分类问题,即在环境因子构成的空间中对样本集进行分类,获取易发性与环境因子之间的关系,进而将这种关系从环境因子空间映射到地理空间,实现对滑坡易发性的识别与分区,并为每个空间单元标记易发性等级。集成学习是一种将多个弱分类器合成单个强分类器以提高分类准确率和泛化能力的技术框架。随机森林(Random Forests,RF)是基于Bagging集成学习的代表性算法,以决策树(Decision Tree,DT)作为基评估器,通过随机抽样对多个决策树进行集成并利用多数投票机制进行预测。单个决策树的准确率越高,随机森林的准确率也会越高。其核心思想是,从原始样本中有放回地多次取样,每次取样形成一个训练集及其对应决策树,生成的所有决策树对新的数据进行分类预测。自适应增强(adaptive boosting,AdaBoost)是Boosting集成学习的代表算法,通过在迭代过程中对训练失败的样本赋予较大的权值来获得较好的预测函数序列,采用投票方式对分类问题进行预测,即样本的分类由各分类器权值决定,其核心思想是,基于原始训练集训练一个基学习器,根据基学习器的分类结果对训练样本分布进行调整,对基学习器分类错误的训练样本在后续训练中赋予更大的权值,利用调整后的样本分布训练下一个基学习器,直至学习器数目达到某一定值后将所有基学习器进行加权结合。RF和AdaBoost的主要区别体现在分类器,RF的分类器是并行训练,即分类器可以同时训练数据,得出结果后再确定权重并综合为最终分类器;AdaBoost的分类器是先后训练,后一轮分类器运用的数据会受到上一轮分类器的影响。本文采用这两种集成学习分类算法对研究区域的滑坡易发性等级进行分类。

    3)负样本聚类算法

    训练样本中只包含滑坡样本会使算法模型高估滑坡易发度,合理选用非滑坡样本可以有效约束滑坡高易发区的过度扩张,对滑坡易发性等级的分类结果合理性有重要影响[21-23]。常用的负样本挑选方法包括随机挑选法和专家经验法,其中:随机挑选法缺乏理论依据,往往误差较大;专家经验法太过于依赖专家个人主观经验,不同专家所分析的结果存在较大差异。基于同类样本在环境因子特征空间中相对接近的原则[24-27],负样本可以在与滑坡样本的环境特征差别较大的单元中筛选。聚类算法不需要数据标签及其他先验知识,主要通过输入样本的相似程度进行归类处理[28]。K-Means作为最常用的聚类算法,其核心思路是,在确定K个初始类簇中心点的初始条件下,将每个点分到距离其最近的类簇中心点代表的类簇中,根据类簇中所有点重新计算该类簇中心点(平均值),再迭代进行分配点和更新类簇中心点步骤,直至类簇中心点变化小到指定程度或迭代过程达到指定次数。基于聚类算法模型的易发性结果可以大致反映研究区内的滑坡易发区,在高易发区以外的区域随机选取非滑坡点以保证负样本的准确性。

    4)滑坡解译

    目视解译作为最传统、最直接、最精确的松散堆积物识别方法,需要基于松散堆积物的解译要素建立解译标志,通过综合分析获取松散堆积物边界、滑动方向及影响范围等信息。本文根据滑坡遥感影像特征(光谱、形状、纹理),结合DEM和实地调查数据,通过目视解译手段获取寿溪河流域内滑坡物源区域,直接解译标志为:形状呈马蹄形、簸箕形、弧形或不规则形;纹理粗糙,起伏不平,地表有坑洼时,可能存在斑点状影纹;色调呈灰色、灰白色,当周围地形较稳定时,颜色较暗,当周围植被较为茂密时,颜色较周围物体差异明显,随植被恢复则会出现不均匀绿色;边界明显可见,前部有滑舌伸入沟谷或河道。由于滑坡深度获取困难,本文利用Simonett[29]建立的滑坡体积–面积幂律关系对小型滑坡体积进行估算,如式(2)所示:

    $$ V = \alpha {A^\gamma } $$ (2)

    式中,V为滑坡体积,A为滑坡面积,αγ为系数。上述估算公式已应用于多个滑坡研究案例[30-32]。大型滑坡的体积估算需要引入更多与滑坡体积相关的因子,如式(3)所示:

    $$ V = \alpha {A^\gamma } \times {H^{\gamma 1}} \times {L^{\gamma 2}} \times {W^{\gamma 3}} \times Lit{h^{\gamma 4}} \times Sl{p^{\gamma 5}} \times As{p^{\gamma 6}} \times PG{A^{\gamma 7}} $$ (3)

    式中,V为滑坡体积,A为滑坡面积,H为高,L为长,W为宽,Lith为岩性,Slp为坡度,PGA为峰值地动加速度,Asp为坡向,αγ1γ7为系数。本文目视解译最大的滑坡面积为30 413 m2,不属于大型滑坡,因此采用式(2)估算松散堆积物体积。

    不同渠道获取的数据表达形式存在差异,即使同为栅格数据,空间分辨率也因卫星搭载的传感器不同而不同,驱动易发性分区算法之前需要对数据进行预处理。在提取滑坡发生的核心位置时,将滑坡面数据与DEM数据叠加,以滑面内DEM最大值所在区域为滑坡发生源区。由于地形因子、土壤因子、土地覆盖和植被覆盖为栅格数据,汛期降水为格点数据,需要建立统一坐标系和分辨率的栅格格式专题图层。为保证所有栅格数据具有相同属性,处理过程中以ALOS DEM数据为参考,对各环境因子进行属性统一操作:通过坐标系转换和数据重采样操作将不同坐标系和空间分辨率的图像统一到与参考图像相同的地理坐标系(GCS_WGS_1984)和空间分辨率(12.5 m×12.5 m)。按照栅格数量接近原则将所有环境因子进行区间划分,具备自然分类属性的环境因子按照自然情况进行分级。利用GIS平台的空间相交和属性查询功能,根据滑坡地理位置的矢量点要素提取环境因子数据,得出不同等级环境因子的空间分布及数量,构建易发性早期识别算法的基础数据集。

    由于流域内滑坡样本数量相对较少,将其影响因子数据集用于算法训练时可能损失部分特征或趋势。K–Fold交叉验证是一种评估有限数据样本的机器学习算法模型的重采样方法,可以扩大样本数量及降低过拟合概率。此处,将训练集分为10组大小相等的互斥子集(K=10),依次轮换10次进行试验。样本集按0.8和0.2的比例分为训练集和测试集,通过数据清洗去除无效值。影响因子以1维向量形式作为输入项,输出滑坡易发性等级。

    滑坡易发性识别结果包含以下4种类型:真阳性(true postive,TP),即被预测为滑坡点的实际滑坡样本数量;真阴性(true negative,TN),即被预测为非滑坡点的实际非滑坡样本数量;假阳性(false positive,FP),即被预测为滑坡点的实际非滑坡样本数量;假阴性(false negative,FN),即被预测为非滑坡点的实际滑坡样本数量。根据易发性识别结果类型计算模型的以下指标:召回率(recall,REC),即实际滑坡样本中被预测为滑坡点的比例;虚警率(false alarm,FA),即实际非滑坡样本中被预测为滑坡点的比例;准确率(accuracy, ACC),即预测正确的样本占总样本的比例。计算公式分别如式(4)~(6)所示:

    $$ {\rm{REC}} = \frac{{{\rm{TP}}}}{{{\rm{TP}} + {\rm{FN}}}}\qquad $$ (4)
    $$ {\rm{FA}} = \frac{{{\rm{FP}}}}{{{\rm{FP}} + {\rm{TN}}}}\qquad $$ (5)
    $$ {\rm{ACC}} = \frac{{{\rm{TP}} + {\rm{TN}}}}{{{\rm{TP }}+ {\rm{FP}} + {\rm{FN}} + {\rm{TN}}}} $$ (6)

    受试者工作特征曲线(receiver operating characteristic curve,ROC)是反映敏感性和特异性连续变量的综合指标,ROC下方面积(area under the curve,AUC)可评价模型的泛化能力,可通过该评价指标对滑坡易发性分区结果进行评价。

    研究区域影响因子各等级空间分布如图2所示。根据已有的滑坡点位置信息计算影响因子各等级频率比并替换影响因子初始值,影响因子最大频率比见表2

    图  2  研究区域影响因子空间分布
    Fig.  2  Spatial distribution of influence factors in research area
    下载: 全尺寸图片
    表  2  影响因子最大频率比
    Table  2  Max frequency ratios of influence factors
    影响因子 Fr
    坡度(20°~25°) 1.77
    坡向(东南) 1.59
    地形粗糙度(1.0~1.1) 1.69
    地形曲率(–0.12~0.06) 1.35
    归一化植被指数(0.10~0.13) 1.71
    汛期降水量(810~830 mm) 1.84
    土地利用类型(低覆盖草地) 5.85
    土壤类型(暗黄棕壤) 2.80
    地层岩性(混合沉积岩) 4.75
    距断层距离(0.3~0.7 km) 1.84

    将研究区域影响因子频率比空间分布进行叠加,并以1维向量形式作为K-means聚类算法输入项,通过10折交叉验证进行训练,输出基于影响因子频率比的滑坡易发性聚类结果,如图3所示。将易发性聚类结果分为5个等级:低易发区[1,2]、较低易发区[3,4]、中易发区[5,6]、较高易发区[7,8]、高易发区[9,10]。其中,高易发区的覆盖率为6.7%,较高易发区的覆盖率为8.2%,较高和高易发区的滑坡点比例为61.7%。

    图  3  基于K-Means聚类算法的寿溪河流域滑坡易发性分布
    Fig.  3  Distribution of landslides susceptibility in Shouxi river basin based on K-Means clustering algorithm
    下载: 全尺寸图片

    从低易发区中随机挑选与滑坡样本等量的非滑坡样本,将滑坡点(正样本)和非滑坡点(负样本)影响因子频率比数据集作为RF分类算法和AdaBoost分类算法的输入项,通过交叉验证进行训练,输出两类集成学习分类算法的滑坡易发性等级,如图4所示。

    图  4  基于融合算法的寿溪河流域滑坡易发性分布
    Fig.  4  Distribution of landslides susceptibility in Shouxi river basin based on fusion algorithm
    下载: 全尺寸图片

    融合算法(K-Means–RF、K-Means–AdaBoost)输出的高易发区覆盖率相对于单体聚类算法分别提高9.3%、12.1%。在对测试样本集的分类效果评估中,将分类结果为较高易发性或高易发性的样本表示为滑坡点,其余分类结果表示为非滑坡点。两类融合算法的评估结果见表3

    表  3  融合算法评估结果
    Table  3  Fusion algorithm evaluation results
    融合算法 TP FP TN FN REC FA ACC AUC
    K-Means–RF 24 8 25 9 0.727 0.242 0.742 0.879
    K-Means–AdaBoost 26 9 24 7 0.788 0.273 0.758 0.893

    表3可知:K-Means–RF融合算法的易发性等级分类结果中,24例滑坡样本被预测为滑坡点(TP),9例滑坡样本被预测为非滑坡点(FN),25例非滑坡样本被预测为非滑坡点(TN),8例非滑坡样本被预测为滑坡点(FP);分类正确的滑坡样本占实际滑坡样本测试集的72.7%(REC为0.727),分类正确的非滑坡样本占实际非滑坡样本测试集的75.8%(FA为0.242),分类准确率为0.742。K-Means–AdaBoost融合算法的易发性等级分类结果中,26例滑坡样本被预测为滑坡点(TP),7例滑坡样本被预测为非滑坡点(FN),24例非滑坡样本被预测为非滑坡点(TN),9例非滑坡样本被预测为滑坡点(FP);分类正确的滑坡样本占实际滑坡样本测试集的78.8%(REC为0.788),分类正确的非滑坡样本占实际非滑坡样本测试集的72.7%(FA为0.273),分类准确率为0.758。K-Means–AdaBoost融合算法的准确率略高于K-Means–RF融合算法,K-Means–AdaBoost对于滑坡点的预测效果更优,FN的数量比K-Means–RF融合算法少2例;K-Means–RF算法对于非滑坡点的预测效果更优,FP的数量比K-Means–AdaBoost融合算法少1例。两类融合算法的泛化能力较为接近,K-Means–AdaBoost、K-Means–RF算法AUC分别为0.893、0.879。

    将物源因子作为滑坡易发性分区影响因子,在保留原有影响因子的基础上,增加物源频率比作为融合算法的输入项。

    根据目视解译标志,结合现场调查结果,得到松散堆积物源144处,面积总和为1 344 060 m2,平均面积为9 333.75 m2,最大面积约为30 413 m2;面积大于20 000 m2的松散堆积物数量和面积总和分别为19个、625 316 m2,面积小于5 000 m2的松散堆积物数量和面积总和分别为47个、136 488 m2。总体来看,面积较大(>20 000 m2)的松散堆积物数量和面积总和分别占总数和总面积的13.19%、46.52%;面积较小(<10 000 m2)的松散堆积物数量和面积总和分别占总数和总面积的65.28%、35.13%;研究区多以分散型小面积滑坡物源区为主。由于土层暴露,滑坡体色调较浅且不均匀,与周围地物有较明显分界线;滑坡体颜色较周围植被更呈亮黄色或亮白色,稀疏灌木或草地使滑坡体呈现出零星的淡绿色;滑坡体边缘与植被和路段分隔清晰,典型滑坡体的现场调查情况及其解译标志如图5所示。

    图  5  典型滑坡现场调查及遥感影像
    Fig.  5  Typical landslide site survey and remote sensing image
    下载: 全尺寸图片

    根据式(2)估算各处松散堆积物体积,由于缺少滑坡体的现场测量条件,选用其他研究在汶川地区实测得到的面积和体积数据建立幂律关系[10,31,33-35],得出体积和面积相关性方程为:

    $$ V=1.738{A}^{0.831\;1},{R}^{2}=0.899\;5 $$ (7)

    对松散堆积物体积进行均匀间隔采样后的空间分布如图6所示,最大体积为9 245.28 m3。根据中国地质调查局公布的《滑坡防治工程勘察规范》(GB/T 32864—2016)中关于滑坡体积的分类标准可知,研究区滑坡类别均属于小型滑坡。

    图  6  松散堆积物体积
    Fig.  6  Volume of loose deposita
    下载: 全尺寸图片

    考虑物源因子后的两类融合算法输出的滑坡易发性分区如图7所示。由图7可知:K-Means–RF、K-Means–AdaBoost融合算法输出的高易发区覆盖率相对于未考虑物源因子时分别提高14.2%、17.7%。考虑物源因子后对测试样本集的分类效果评估结果见表4。K-Means–RF融合算法的易发性等级分类结果中:28例滑坡样本被预测为滑坡点(TP),5例滑坡样本被预测为非滑坡点(FN),分类正确的滑坡样本占实际滑坡样本测试集的84.8%,REC为0.848;25例非滑坡样本被预测为非滑坡点(TN),6例非滑坡样本被预测为滑坡点(FP),分类正确的非滑坡样本占实际非滑坡样本测试集的75.8%,FA为0.242,分类准确率为0.803。K-Means–AdaBoost融合算法的易发性等级分类结果中:30例滑坡样本被预测为滑坡点(TP),3例滑坡样本被预测为非滑坡点(FN),分类正确的滑坡样本占实际滑坡样本测试集的90.9%,REC为0.909;24例非滑坡样本被预测为非滑坡点(TN),9例非滑坡样本被预测为滑坡点(FP),分类正确的非滑坡样本占非滑坡样本测试集的72.7%,FA为0.273,分类准确率为0.818。考虑物源条件的两类融合算法的FN数量都减少4例,对于滑坡点的预测效果相较于未考虑物源条件时更优,准确率有一定提升。

    图  7  考虑物源因子的融合算法的寿溪河流域滑坡易发性分布
    Fig.  7  Distribution of landslides in Shouxi river basin based on fusion algorithm considering slump mass-sources factor
    下载: 全尺寸图片
    表  4  考虑物源因子的融合算法评估结果
    Table  4  Fusion algorithm evaluation results considering loose deposita factor
    融合算法 TP FP TN FN REC FA ACC AUC
    K-Means–RF 28 8 25 5 0.848 0.242 0.803 0.847
    K-Means–AdaBoost 30 9 24 3 0.909 0.273 0.818 0.864

    滑坡易发区早期识别是山洪水沙灾害易发性识别的基础,本文从分区算法和影响因子两个方面对山区中小流域滑坡易发性识别方法进行了优化试验。得出以下结论:

    1)基于聚类–分类融合算法的山区中小流域滑坡易发性分区结果的高易发区覆盖率相较于单体聚类算法明显提高,K-Means–RF、K-Means–AdaBoost融合算法的易发性分区中的高易发区覆盖率分别提高9.3%和12.1%。

    2)两类融合算法的易发性分区准确率和泛化能力比较接近,K-Means–AdaBoost融合算法对于滑坡点的预测效果更优,K-Means–RF算法对于非滑坡点的预测效果更优。

    3)考虑物源因子后的K-Means–RF、K-Means–AdaBoost融合算法输出的高易发区覆盖率相对于未考虑物源因子时分别提高14.2%、17.7%,两类融合算法REC提高12.1%。

    从实际业务出发,滑坡的早期识别对于漏警的容错率远小于虚警,基于集成学习的分类算法模型在训练过程中确保高(低)召回率(漏报率)是前提,即着重于对滑坡样本的滤取,这会在一定程度上造成部分非滑坡样本被预测为滑坡样本。综合上述原因,K-Means–AdaBoost算法的实际业务应用潜力高于K-Means–RF算法。

  • 图  1   研究区及滑坡分布

    Fig.  1   Research area and landslides distribution

    下载: 全尺寸图片

    图  2   研究区域影响因子空间分布

    Fig.  2   Spatial distribution of influence factors in research area

    下载: 全尺寸图片

    图  3   基于K-Means聚类算法的寿溪河流域滑坡易发性分布

    Fig.  3   Distribution of landslides susceptibility in Shouxi river basin based on K-Means clustering algorithm

    下载: 全尺寸图片

    图  4   基于融合算法的寿溪河流域滑坡易发性分布

    Fig.  4   Distribution of landslides susceptibility in Shouxi river basin based on fusion algorithm

    下载: 全尺寸图片

    图  5   典型滑坡现场调查及遥感影像

    Fig.  5   Typical landslide site survey and remote sensing image

    下载: 全尺寸图片

    图  6   松散堆积物体积

    Fig.  6   Volume of loose deposita

    下载: 全尺寸图片

    图  7   考虑物源因子的融合算法的寿溪河流域滑坡易发性分布

    Fig.  7   Distribution of landslides in Shouxi river basin based on fusion algorithm considering slump mass-sources factor

    下载: 全尺寸图片

    表  1   数据来源与精度

    Table  1   Data source and resolution

    数据类型 数据来源 数据精度
    SPOT卫星遥感影像(2018年) 欧洲航天局官方网站
    https://earth.esa.int/
    1.5 m
    DEM 美国国家航空航天局官方网站
    https://search.asf.alaska.edu/#/
    12.5 m
    土地利用类型(2018年) 中国科学院资源环境科学与数据
    中心
    http://www.resdc.cn/
    30 m
    土壤类型 30 m
    植被覆盖(2018年) 30 m
    地层岩性 91卫图助手
    https://www.91weitu.com/
    1∶50万
    断层 1∶50万
    降水 国家气象信息中心
    http://www.nmic.cn/
    0.01 (°)/h

    表  2   影响因子最大频率比

    Table  2   Max frequency ratios of influence factors

    影响因子 Fr
    坡度(20°~25°) 1.77
    坡向(东南) 1.59
    地形粗糙度(1.0~1.1) 1.69
    地形曲率(–0.12~0.06) 1.35
    归一化植被指数(0.10~0.13) 1.71
    汛期降水量(810~830 mm) 1.84
    土地利用类型(低覆盖草地) 5.85
    土壤类型(暗黄棕壤) 2.80
    地层岩性(混合沉积岩) 4.75
    距断层距离(0.3~0.7 km) 1.84

    表  3   融合算法评估结果

    Table  3   Fusion algorithm evaluation results

    融合算法 TP FP TN FN REC FA ACC AUC
    K-Means–RF 24 8 25 9 0.727 0.242 0.742 0.879
    K-Means–AdaBoost 26 9 24 7 0.788 0.273 0.758 0.893

    表  4   考虑物源因子的融合算法评估结果

    Table  4   Fusion algorithm evaluation results considering loose deposita factor

    融合算法 TP FP TN FN REC FA ACC AUC
    K-Means–RF 28 8 25 5 0.848 0.242 0.803 0.847
    K-Means–AdaBoost 30 9 24 3 0.909 0.273 0.818 0.864
  • [1] 刘超,聂锐华,刘兴年,等.山区暴雨山洪水沙灾害预报预警关键技术研究构想与成果展望[J].工程科学与技术,2020,52(6):1–8.

    Liu Chao,Nie Ruihua,Liu Xingnian,et al.Research conception and achievement prospect of key technologies for forecast and early warning of flash flood and sediment disasters in mountainous rainstorm[J].Advanced Engineering Sciences,2020,52(6):1–8
    [2] 谢和平,许唯临,刘超,等.山区河流水灾害问题及应对[J].工程科学与技术,2018,50(3):1–14.

    Xie Heping,Xu Weilin,Liu Chao,et al.Water disasters and their countermeasures in mountains[J].Advanced Engineering Sciences,2018,50(3):1–14
    [3] 曹叔尤,刘兴年.泥沙补给变化下山区河流河床适应性调整与突变响应[J].四川大学学报(工程科学版),2016,48(1):1–7. doi: 10.15961/j.jsuese.2016.01.001

    Cao Shuyou,Liu Xingnian.Adaptive adjustment and mutation response of river bed within changing sediment supply-in mountain river[J].Journal of Sichuan University(Engineering Science Edition),2016,48(1):1–7 doi: 10.15961/j.jsuese.2016.01.001
    [4] 李彬,顾爱军,郭志学,等.强输沙对陡坡河道水位激增的影响试验研究[J].四川大学学报(工程科学版),2015,47(增刊2):34–39. doi: 10.15961/j.jsuese.2015.s2.006

    Li Bin,Gu Aijun,Guo Zhixue,et al.Experimental study of water level in steep channel flow under high sediment concentration[J].Journal of Sichuan University(Engineering Science Edition),2015,47(Supp2):34–39 doi: 10.15961/j.jsuese.2015.s2.006
    [5] 张晨玲,关见朝,方春明,等.山区河流形态对不同来沙过程的响应试验研究[J].泥沙研究,2018,43(2):15–20. doi: 10.16239/j.cnki.0468-155x.2018.02.003

    Zhang Chenling,Guan Jianchao,Fang Chunming,et al.Experimental study on the response of river to water and sediment supply processes[J].Journal of Sediment Research,2018,43(2):15–20 doi: 10.16239/j.cnki.0468-155x.2018.02.003
    [6] 许唯临,刘兴年,王协康,等.山区流域山洪泥沙灾害易灾区识别方法:ZL2018104684183[P].2018–08–24.
    [7] 王协康,许泽星,刘兴年,等.基于山区河流形态与主支流动量比变化的交汇区山洪泥沙灾害易灾区识别方法:ZL2019108343248[P].2020–02–07.
    [8] 王协康,刘兴年,许泽星,等.基于山区河流形态与洪水位变化的宽窄相间河段山洪淹没灾害易灾区识别方法:ZL2019108343106[P].2020–01–24.
    [9] 宿方睿,郭长宝,张学科,等.基于面向对象分类法的川藏铁路沿线大型滑坡遥感解译[J].现代地质,2017,31(5):930–942. doi: 10.3969/j.issn.1000-8527.2017.05.005

    Su Fangrui,Guo Changbao,Zhang Xueke,et al.Remote sensing interpretation of large landslides along Sichuan—Tibet railway based on object oriented classification method[J].Geoscience,2017,31(5):930–942 doi: 10.3969/j.issn.1000-8527.2017.05.005
    [10] Xu Chong,Xu Xiwei,Shen Lingling,et al.Optimized volume models of earthquake-triggered landslides[J].Scientific Reports,2016,6(1):29797. doi: 10.1038/s41598-016-0001-8
    [11] 黄润秋,李为乐.“5·12”汶川大地震触发地质灾害的发育分布规律研究[J].岩石力学与工程学报,2008,27(12):2585–2592. doi: 10.3321/j.issn:1000-6915.2008.12.028

    Huang Runqiu,Li Weile.Research on development and distribution rules of geohazards induced by Wenchuan Earthquake on 12th May,2008[J].Chinese Journal of Rock Mechanics and Engineering,2008,27(12):2585–2592 doi: 10.3321/j.issn:1000-6915.2008.12.028
    [12] Yang Xin,Liu Rui,Li Luyao,et al.Landslide susceptibility mapping using machine learning for Wenchuan County,Sichuan Province,China[J].E3S Web of Conferences,2020,198(5):03023.
    [13] Khalaf M,Alaskar H,Hussain A J,et al.IoT-enabled flood severity prediction via ensemble machine learning models[J].IEEE Access,2020,8:70375–70386. doi: 10.1109/ACCESS.2020.2986090
    [14] Khan I,Choi S,Kwon Y W.Earthquake detection in a static and dynamic environment using supervised machine learning and a novel feature extraction method[J].Sensors,2020,20(3):800. doi: 10.3390/s20030800
    [15] Song M J,Cho Y S.Probabilistic tsunami heights model using Bayesian machine learning[J].Journal of Coastal Research,2020,95(SI):1291–1296.
    [16] 张帅,赵书兰,雷孝章,等.基于区域生长算法巴谢河流域典型滑坡自动识别[J].中国水土保持科学,2021,19(3):103–109. doi: 10.16843/j.sswc.2021.03.013

    Zhang Shuai,Zhao Shulan,Lei Xiaozhang,et al.Automatic identification of typical landslides in Baxie River Basin based on region growing[J].Science of Soil and Water Conservation,2021,19(3):103–109 doi: 10.16843/j.sswc.2021.03.013
    [17] Ding Anzi,Zhang Qingyong,Zhou Xinmin,et al.Automatic recognition of landslide based on CNN and texture change detection[C]//Proceedings of the 2016 31st Youth Academic Annual Conference of Chinese Association of Automation(YAC).Wuhan:IEEE,2016:444–448.
    [18] Huang Jian,Hales T C,Huang Runqiu,et al.A hybrid machine-learning model to estimate potential debris-flow volumes[J].Geomorphology,2020,367:107333.
    [19] 张群,许强,吴礼舟,等.南江滑坡群体积的BP神经网络模型与预测[J].水文地质工程地质,2015,42(1):134–139. doi: 10.16030/j.cnki.issn.1000-3665.2015.01.23

    Zhang Qun,Xu Qiang,Wu Lizhou,et al.BP neural network model for forecasting volume of landslide group in Nanjiang[J].Hydrogeology & Engineering Geology,2015,42(1):134–139 doi: 10.16030/j.cnki.issn.1000-3665.2015.01.23
    [20] 张春山,张业成,马寅生.黄河上游地区崩塌、滑坡、泥石流地质灾害区域危险性评价[J].地质力学学报,2003,9(2):143–153.

    Zhang Chunshan,Zhang Yecheng,Ma Yinsheng.Regional dangerous on the geological hazards of collapse,landslide and debris flows in the upper reaches of the Yellow River[J].Journal of Geomechanics,2003,9(2):143–153
    [21] Kavzoglu T,Sahin E K,Colkesen I.Landslide susceptibility mapping using GIS-based multi-criteria decision analysis,support vector machines,and logistic regression[J].Landslides,2014,11(3):425–439. doi: 10.1007/s10346-013-0391-7
    [22] Guo Qinghua,Kelly M,Graham C H.Support vector machines for predicting distribution of Sudden Oak Death in California[J].Ecological Modelling,2005,182(1):75–90.
    [23] Pawluszek K,Borkowski A.Impact of DEM-derived factors and analytical hierarchy process on landslide susceptibility mapping in the region of Rożnów Lake,Poland[J].Natural Hazards,2017,86(2):919–952.
    [24] Hong Haoyuan,Pradhan B,Sameen M I,et al.Improving the accuracy of landslide susceptibility model using a novel region-partitioning approach[J].Landslides.2018,15(4):753–772.
    [25] Patriche C V,Pirnau R,Grozavu A,et al.A comparative analysis of binary logistic regression and analytical hierarchy process for landslide susceptibility assessment in the Dobrovat River Basin,Romania[J].Pedosphere,2016,26(3):335–350.
    [26] Bai Shibiao,Lu Ping,Wang Jian.Landslide susceptibility assessment of the Youfang catchment using logistic regression[J].Journal of Mountain Science,2015,130(1/2):816–827.
    [27] Pradhan B.A comparative study on the predictive ability of the decision tree,support vector machine and neuro-fuzzy models in landslide susceptibility mapping using GIS[J].Computers & Geosciences,2013,51:350–365.
    [28] 蔡润,武震,云欢,等.基于BP和SOM神经网络相结合的地震预测研究[J].四川大学学报(自然科学版),2018,55(2):307–315.

    Cai Run,Wu Zhen,Yun Huan,et al.Research on earthquake prediction based on BP and SOM neural network[J].Journal of Sichuan University(Natural Science Edition),2018,55(2):307–315
    [29] Simonett D.Landslide distribution and earthquakes in the Bewani and Torricelli mountains,New Guinea:A statistical analysis[J].Cambridge:Cambridge University Press,1967:64–84.
    [30] 王琦理.基于图像处理的公路滑坡规模自动提取方法研究[D].西安:长安大学,2018.

    Wang Qili.Research on the automatic extraction method for highway slide scale based on image processing[D].Xi’an:Chang’an University,2018.
    [31] Fan Xuanmei,van Westen C J,Xu Qiang,et al.Analysis of landslide dams induced by the 2008 Wenchuan earthquake[J].Journal of Asian Earth Sciences,2012,57:25–37. doi: 10.1016/j.jseaes.2012.06.002
    [32] Xu C,Xu X W,Shen L L,et al.区域地震滑坡体积优化模型[J].世界地震译丛,2018,49(3):287–299. doi: 10.16738/j.cnki.issn.1003-3238.201803007
    [33] Tang Chuan,Zhu Jing,Ding Jun,et al.Catastrophic debris flows triggered by a 14 August 2010 rainfall at the epicenter of the Wenchuan earthquake[J].Landslides,2011,8(4):485–497. doi: 10.1007/s10346-011-0269-5
    [34] Fan Jianrong,Li Xiuzhen,Guo Fenfen,et al.Empirical-statistical models based on remote sensing for estimating the volume of landslides induced by the Wenchuan earthquake[J].Journal of Mountain Science,2011,8(5):711–717. doi: 10.1007/s11629-011-2133-4
    [35] Tang Chuan,Zhu Jing,Chang Ming,et al.An empirical-statistical model for predicting debris-flow runout zones in the Wenchuan earthquake area[J].Quaternary International,2012,250:63–73. doi: 10.1016/j.quaint.2010.11.020
图(7)  /  表(4)

本文结构

    /

    返回文章
    返回