工程科学与技术   2019, Vol. 51 Issue (4): 94-104
基于可变模糊聚类的山丘区小流域洪峰经验公式推求
吴剑1, 叶磊1, 郭良2, 姬荣彬1, 李敏1, 周惠成1     
1. 大连理工大学 水利工程学院,辽宁 大连 116024;
2. 中国水利水电科学研究院 防洪抗旱减灾研究中心,北京 100038
基金项目: 国家重点研发计划项目(2016YFC0400906);国家自然科学基金项目(51709033;51709036)
摘要: 山丘区小流域暴雨洪水汇流计算是山洪精准预报预警的关键之一。针对山丘区小流域暴雨洪水历时短、成灾快和小流域普遍缺乏实测资料、产汇流非线性特征明显等特点,基于考虑雨强和流域异质性的分布式地貌单位线,开展山丘区小流域单位线峰值经验公式推求的研究。选取甘肃省山丘区26 774个小流域作为研究对象,采用可变模糊聚类方法对小流域单位线进行分类,分类别建立小流域特征因子与单位线峰值之间的经验公式,并进一步探讨所推求经验公式的合理性。结果表明:可变模糊聚类算法能较好地应用于分布式单位线分类,该算法的分类效果非常突出,分类后的单位线经验公式计算效果有显著提升;山丘区小流域汇流过程峰值主要受流域面积、最长汇流路径长度及其坡降的影响,分布式单位线峰值经验公式在山丘区小流域汇流计算具有广阔的应用前景。
关键词: 山丘区小流域    分布式单位线    汇流    可变模糊聚类    经验公式    
Empirical Formulas of Flood Peak Discharge Based on Variable Fuzzy Clustering in Small Mountainous Watersheds
WU Jian1, YE Lei1, GUO Liang2, JI Rongbin1, LI Min1, ZHOU Huicheng1     
1. School of Hydraulic Eng., Dalian Univ. of Technol., Dalian 116024, China;
2. Research Center on Flood and Drought Disaster Reduction, China Inst. of Water Resources and Hydropower Research, Beijing 100038, China
Abstract: Flash floods in mountainous watersheds are often caused by the rainstorm. They are different from regular floods by having a smaller timescale and a faster flowing front of water and debris. The storm flood in mountainous watersheds presents strong nonlinearity, and the related hydrological calculation remains one of the critical challenges for accurate flash flood forecasting, which is further constrained by the availability of local datasets. In this paper, we present the empirical formulas derived from the distributed unit hydrographs which are subtracted from the rainfall intensity and the spatial variation of terrain, land use and soil type within each watershed. By selecting 26 774 small mountainous watersheds in Gansu province as study sites, we utilize variable fuzzy clustering method to capture the variation of unit hydrographs, and the empirical formulas between the watershed characteristics and the peak discharge of unit hydrographs are obtained in each cluster. The results show that variable fuzzy clustering method performs well in the classification of the distributed unit hydrographs, the derived empirical formulas can produce reliable results on the calculation of flood peak discharge in small mountainous watersheds. Meanwhile, flood peak discharge is mainly affected by drainage area, main channel network length and corresponding longitudinal gradient, and the derived empirical formulas show wide application potential in the hydrological calculation of rainstorm in small mountainous watersheds, especially in ungauged basins.
Key words: small mountainous watersheds    distributed unit hydrographs    confluence process    variable fuzzy clustering method    empirical formula    

山丘区暴雨受地形影响大、过程短、时空分布严重不均,同时山丘区小流域植被类型和下垫面条件复杂,普遍缺乏水文实测资料、产汇流非线性特点显著。目前针对山丘区小流域产汇流计算尚没有十分有效的方法,极大地增加了中国山洪预警预报的不确定性。单位线作为流域汇流过程主要的计算方法,已经被广泛应用到流域降雨径流模拟。传统经验单位线对流域实测流量资料要求较高,对无资料地区应用受限。长期以来,国内外水文学者对流域水文响应和地形地貌结构的联系进行了许多探索,以解决无资料流域的单位线分析问题。Rodriguez-Iturbe等[1]和Gupta等[2]建立了地貌瞬时单位线理论,从理论上探讨用流域地形地貌特征属性来量化流域的水文响应;Maidment等[3]根据地面坡度与流速间的关系,利用GIS工具和DEM数据得到了空间分布的单位线;郭良、孔凡哲等[46]基于空间分布流速场分析得到了地貌瞬时单位线,并得到了很好的应用。中国山洪灾害防治前期工作中基于数字高程模型和高分辨率遥感影像,提取了全国范围内53万个山丘区小流域共计1 500多万条分布式单位线,用于山洪预警指标分析,取得了较好的效果[7],为中国山洪灾害防治提供了坚实的数据支撑。

山丘区小流域地形和植被覆盖等下垫面条件空间差异性是造成暴雨洪水过程产汇流非线性的重要因素,目前缺资料山丘区小流域产汇流非线性及特征参数辨识量化是山洪预警预报急需解决的关键问题。基于空间分布流速场的分布式单位线以降雨径流形成的微观理论为基础,通过空间分布流速场来考虑下垫面地形地貌特征的空间变化,凸显了流域内局部地形、植被覆盖类型等下垫面分布特征对水流汇流过程的影响,分布式单位线峰值流量、峰现时间、汇流时间等特征要素可充分反映山丘区小流域汇流非线性特性。通过分析影响小流域汇流过程的流域特征因子,建立分布式单位线特征要素与流域关键特征因子之间的经验关系,是解决山丘区暴雨山洪非线性问题、山丘区小流域汇流计算的重要手段。同时,受局部地形和植被覆盖等下垫面条件的影响,不同小流域分布式单位线差异较大,导致实际洪水汇流计算涉及大量的单位线,不便于暴雨洪水产汇流计算,有必要对单位线进行有效分类,一方面可供无资料地区结合区域下垫面条件使用,另一方面可改进汇流预报精度不高流域的单位线。此外,不同于传统大尺度流域水文预报、水库调度较多关注洪水过程,山丘区小流域更侧重于峰值的预报,国内外山洪灾害防治常以成灾流量或水位作为山洪预警指标。因此,本文围绕缺资料山丘区小流域汇流非线性规律问题,选取甘肃省全省范围内山丘区小流域作为研究对象,重点关注山洪峰值的计算,开展分布式单位线峰值流量经验公式推求分析研究,以期为山丘区小流域汇流计算提供新的思路,为提升中国山洪灾害防治水平提供技术支撑。

1 全国山洪灾害防治基础数据 1.1 全国山丘区小流域划分及基础属性

全国山丘区小流域划分及基础属性提取是山洪灾害调查评价重要组成部分,为山洪灾害调查分析评价工作提供基础数据和技术支撑。中国水利水电科学研究院在全国山洪灾害防治基础开发及应用中首次全面分析了全国山丘区小流域地形地貌、土地利用、土壤植被特征和产汇流特性,系统划分并提取了全国山丘区53万个小流域的基本属性数据,填补了国内空白。利用1:5万DEM和DLG数据,结合高分辨率遥感影像数据,按照10~50 km2的面积划分小流域,并提取小流域的面积、最长汇流路径长度及比降、河长及比降等特征信息,最终构建小流域基础属性库。

1.2 全国山丘区小流域分布式单位线

全国山洪灾害防治基础数据开发应用中基于径流形成过程的“粒子学说”,即流域中水质点汇流时间的概率密度分布函数等价于单位线,建立了一套标准化的考虑地形、植被覆盖等下垫面信息的分布式单位线计算方法体系,提取了全国范围内53万个小流域的单位线数据,为山丘区小流域洪水分析计算开辟了新途径。

2 研究区域选取及其基础数据 2.1 研究区域及其小流域

选取甘肃省为研究区域,该省山地多、平地少,全省山地和丘陵占总土地面积的78.2%,是中国典型的山丘区地貌区域。甘肃省行政域面积42.8×104 km2,涉及山洪灾害防治任务的小流域面积为38.3×104 km2,共划分小流域27 106个,其中山丘区面积31.6×104 km2,平原区面积6.7×104 km2

2.2 流域特征属性数据

小流域山洪特性受流域内降雨和下垫面特性共同影响,在降雨一定的情况下,主要取决于小流域下垫面特性。小流域下垫面特性主要包括流域大小、形状、地形地貌以及土壤植被等基础属性。本文收集了甘肃省27 106个小流域的特征属性数据,并剔除了当中坡度极小值(接近于0)的部分小流域(约占1%),最终确定了26 774个小流域。本次收集的甘肃省小流域特征属性数据包括流域面积、周长、形状系数、平均坡度、最长汇流路径及其坡降,流域面积基本小于50 km2,部分属性数据如表1所示。

表1 甘肃省小流域特征属性列表 Tab. 1 Small watershed characteristics

2.3 分布式单位线数据

收集了甘肃省范围内26 774个小流域时段长为10 min、降雨强度为5年一遇的分布式单位线数据。小流域分布式单位线提取不受水文资料的严格限制,是流域大小、形状、地形地貌以及土壤植被等综合作用的结果,间接反映小流域的山洪特性。分布式单位线计算方法的理论基础为流域中水质点汇流时间的概率密度分布函数等价于单位线,核心思想为通过空间分布速度场来考虑流域内局部地形(坡度)、植被覆盖类型等下垫面分布特征对水流汇集过程的影响。网格水滴的汇流速度计算(式(1))考虑了流域内网格单元坡度、土地利用类型的空间分布特征[4]。涉及的主要公式如下:

$v = k{S^{0.5}}{R^{0.4}}$ (1)
${t_n} = l/v\;{\text{ 或 }}1\;{\rm{.414}}l/v$ (2)
${T_j} = \sum\limits_{n = 1}^{{N_j}} {{t_n}} $ (3)

式中, $ v $ 为网格单元水滴汇流速度, $ S $ 为网格单元坡度, $ R $ 为降雨强度系数, $ t_n $ 为水滴流经网格单元的滞留时间, $l $ 为网格单元长度(25 m), $ t_j $ 为第 $ j $ 个网格单元至流域出口的汇流时间, $ N_j $ 为第 $ j $ 个网格单元沿汇流路径至流域出口所流经网格单元数。

分布式单位线提取计算的主要技术流程见图1,Maidment[3]、孔凡哲[5]、郭良[6]、宋晓猛[8]等均对分布式单位线的计算原理、方法有详细介绍,本文不再进一步详细阐述。

图1 小流域分布式单位线计算流程图 Fig. 1 Flow chart for obtaining unit hydrographs

3 基于可变模糊聚类模型的分布式单位线分类模型 3.1 可变模糊聚类模型

聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类样本属于哪一类很明确。而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“亦此亦彼”。比如,流域汇流单位线主要分为陡涨陡落型、涨落缓慢型,但在某些流域中又存在着中间阶段或过渡阶段的线型过程,这种界限和差异是不确定的、模糊的。1973年,Bezdek[9]将模糊思想引入聚类分析,提出了模糊C–均值聚类(FCM);陈守煜[1012]继承和发展了札德模糊集理论[13],并提出了可变模糊聚类模型。可变模糊聚类模型是用相对隶属度确定每个数据点属于某个聚类的程度的一种聚类算法,该模型应用十分广泛[1417],它能够直接给出分类结果,并且具有计算简单、可靠性和实用性强的优点。

可变模糊聚类模型是可变模型,通过参数取值可简化为模糊C–均值聚类模型,当模糊聚类模型参数取值均为2时,就是模糊C–均值聚类模型。FCM算法计算收敛速度快,能处理大数据集。综合考虑聚类所涉及的大量单位线数据及其计算效率,采用经可变模糊聚类模型简化得到的C–均值聚类模型进行聚类分析。FCM将 $ n $ 个向量 $ { x}_j $ $ j = 1,2, \cdots ,n $ )分为 $ C $ 个模糊组,并求每组的聚类中心,使得非相似性指标的价值函数 $ J $ 达到最小。FCM的价值函数:

$ J({ U},{ P}) = J({ U},{C_1},{C_2},\cdots,{C_C}) = \sum\limits_{i = 1}^C {{J_i}} = \sum\limits_{i = 1}^C {\sum\limits_j^n {u_{ij}^m d_{ij}^2} } $ (4)

式中: $ {U} $ 表示隶属度矩阵, $ {P} $ 表示各个类的聚类中心向量集合; $ u_{ij} $ 表示样本 $ x_j $ 与第 $ i $ 类样本的隶属度,且一个样本的隶属度的和满足归一化约束条件,如式(5)所示; $ m $ 表示模糊加权指数,影响模糊分类的准确度; $ d_{ij} $ 表示样本点 $ x_j $ 与第 $ i $ 个类的样本原型 $ p_i $ 之间的失真度,一般是用两个向量之间的距离表示。

$\sum\limits_{i = 1}^C {{u_{ij}}} =1,\;\forall j = 1,2, \cdots,n$ (5)

聚类的最终效果就是每个类别内相似度最大,类之间相似度最小,即每个元素和各类中心的加权距离之和最小。因此,构造如下的新目标函数 ${J'}$ ,可求得使式(4)达到最小值的必要条件:

$\begin{aligned}[b] & {J'}({ U},{C_1},{C_2},\cdots,{C_C},{\lambda _1},{\lambda _2},\cdots,{\lambda _n}) =\\ & \quad\quad J({ U},{C_1},{C_2},\cdots,{C_C}) + \displaystyle\sum\limits_{j = 1}^n {{\lambda _j}\left(\displaystyle\sum\limits_{i = 1}^C {{u_{ij}} - 1}\right) }= \\ & \quad\quad\displaystyle\sum\limits_{i = 1}^C {\sum\limits_j^n {u_{ij}^m d_{ij}^2} } + \displaystyle\sum\limits_{j = 1}^n {{\lambda _j}\left(\displaystyle\sum\limits_{i = 1}^C {{u_{ij}} - 1}\right) } \end{aligned}$ (6)

式中: $ {\lambda _j}$ 为拉格朗日乘子;对所有输入参量( $ u_{ij} $ $ C_i $ $ {\lambda _j}$ )分别求偏导,式(6)的最优解为:

${C_i} = \frac{{\displaystyle\sum\limits_{j = 1}^n {u_{ij}^m{x_j}} }}{{\displaystyle\sum\limits_{j = 1}^n {u_{ij}^m} }}$ (7)
${u_{ij}} = \frac{1}{{\displaystyle\sum\limits_{k = 1}^C {{{\left( {\frac{{{d_{ij}}}}{{{d_{kj}}}}} \right)}^{2/(m - 1)}}} }}$ (8)

由式(8)易知模糊C–均值聚类算法是一个简单的迭代过程,算法的主要流程如图2所示。

图2 模糊C–均值聚类算法流程 Fig. 2 Flow of Fuzzy C–means Method

该算法的性能依赖于初始聚类中心,优化结果往往是局部最优,而得不到全局最优解。为了克服这一缺点,常用的解决方法主要有两种,一种是引入遗传算法[18]、模拟退火[19]、人工鱼群算法[20]等另外的快速算法确定初始聚类中心,另一种是不同的初始聚类中心启动该算法,多次运行FCM算法,直至满足终止条件。本文采用后一种方法,该方法简便有效,能够满足聚类分析需求。

3.2 模糊加权指数确定

模糊加权指数是模糊C–均值聚类算法中十分关键的参数,它影响分类的准确程度,要达到较好的模糊聚类效果必须选定一个适合的指数 $ m $ 。然而,尽管存在一些经验值或经验范围,目前对于指数 $ m $ 的取值缺乏相关的理论指导和经验性的公式。Bezdek等[2122]指出 $ m $ 取值在1.5~3.0能够取得较好的聚类结果,并得到了 $ m =2$ 时的物理解释,认为 $ m $ 取2最合适;Cannon等[23]认为 $ m $ 取值1.1~2.5在图像聚类应用中效果很好;McBrateney等[24]基于试验得出 $ m $ 取值接近2时聚类效果较好;Pal等[25]基于聚类有效性的研究得出 $ m $ 的最佳取值范围为1.5~2.5,一般取区间中值 $ m =2$ 。本文参考已有的模糊C–均值聚类算法指数 $ m $ 及相关应用研究,确定 $ m $ 取值为2。

3.3 模糊聚类指标选取及标准化

在面积或净雨强度相同或相近的情况下,流域形状、地形及地貌特性是影响单位线的主要因素。本文涉及的小流域单位线均为单峰型过程,均可以概化为三角形型过程。因此,选取洪峰流量、峰现时间、汇流时间大小作为聚类指标特征值。此外,所选取指标特征值量纲不一致,且变化区间处于不同数量级,影响数据分析结果。为了消除特征指标之间的量纲影响,增加特征指标之间的可比性,需对不同特征指标进行标准化处理。本文选取0均值标准化(Z–score)方法进行标准化处理,使各特征指标处于(0,1)区间内,便于进行聚类分析。

${x_{\rm s}} = (x - u)/\sigma $ (9)

式中, $x_{\rm s}$ 为标准化后特征值, $ x$ 为原始数据特征值, $ u$ 为原始数据特征值均值, $ \sigma$ 为原始数据特征值标准差。

3.4 聚类平衡及最佳分类个数

聚类是根据样本的相似性划分为若干个类别,相似样本归为一类,而不相似样本划分至不同类别。样本之间的相似性可用欧式距离衡量[2627],基于欧式距离的簇内相似误差(式(10))与簇间相似误差(式(11))常作为聚类算法的评价函数[2830]

$\varLambda =\sum\limits_{i = 1}^C {\sum\limits_j^{{n_i}} {\left\| {x_j^i - {p_0}^i} \right\|} } $ (10)
$\varGamma =\sum\limits_{i = 1}^C {\left\| {p_0^i - {p_0}} \right\|} $ (11)

式中: $\varLambda $ 为簇内相似误差和; $\varGamma $ 为簇间相似误差和; $ {p_0^i }$ 为第 $ i $ 类的聚类中心,见式(12); $ p_0 $ 为样本集全局聚类中心,见式(13); $ n_i $ 为第 $ i $ 类中样本数量。

$p_0^i=\frac{{\rm{1}}}{{{n_i}}}\sum\limits_{j = 1}^{{n_i}} {x_j^i} $ (12)
${p_0} = \frac{1}{n}\sum\limits_{j = 1}^n {{x_j}} $ (13)

聚类初始时,可认为每个样本均为单独一类,簇内相似误差最小,簇间相似误差最大;随着聚类过程进行,簇内相似误差逐渐增大,簇间相似误差逐渐减小;最佳聚类可认为簇内相似误差与簇间相似误差趋于平衡[3133],即聚类平衡(式(14))。

$\varepsilon (x) = \varLambda + \varGamma $ (14)

引入聚类平衡分析方法确定最佳分类个数。依次把分类个数 $ C $ 设置为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21,经标准化处理后,比较各分类方案的聚类平衡相似误差和,相应最小值即为最佳分类方案,如图3所示。

图3 分布式单位线聚类平衡分析 Fig. 3 Clustering balance of distributed unit hydrographs

聚类初始,分类数最大,且每个样本均为单独一类。由图3可知,随着分类数减小,簇内相似性误差逐渐增大,簇间相似性误差逐渐减小,当分类数等于8时,簇内、簇间两种相似性误差趋于平衡,故确定最佳分类数 $ C=8 $ 表2给出了甘肃省山丘区小流域分布式单位线聚类结果。图4为分布式单位线聚类成果空间分布,同一分类用相同颜色标识。图5为8个类别分布式单位线峰值流量、峰现时间、汇流时间箱线图。

表2 甘肃省山丘区小流域分布式单位线模糊聚类成果汇总 Tab. 2 Statistical summary of clustering results of distributed unit hydrographs

图5 各分类单位线峰值流量、峰现时间、汇流时间箱线图 Fig. 5 Boxplots for peak discharge, time to peak, confluence time of unit hydrographs

图4 各分类单位线空间分布 Fig. 4 Spatial distribution for unit hydrographs

图4可知,分类1、5主要分布在甘肃省东南部,分类3、7主要分布在甘肃省西北部,分类8主要分布在甘肃省中部,而分类2、4、6在甘肃省范围内分布均较为离散。同时,由表2图5可知,所划分8个类中有7个类的单位线数量占比均在总数的8%(2 142个小流域)以上。占比较大的为分类1(18.2%)、分类2(16.6%)、分类3(16.5%)和分类4(14.1%),其中分类4单位线汇流时间、峰现时间、洪峰流量均较小;分类1和2单位线洪峰流量相当,分类1单位线汇流时间、峰现时间明显大于分类2;分类3单位线洪峰流量偏大,汇流时间、峰现时间均偏小。占比较小的为分类7(8.1%)和分类8(3.2%),其中分类7单位线汇流时间、峰现时间均较小,洪峰流量较大,属于陡涨陡落型单位线;分类8单位线汇流时间、峰现时间均较大,洪峰流量较小,属于涨落缓慢型单位线;分类5、6介于上述两种线型之间。很明显可以看出,除分类4、8之外,其余分类单位线形状均偏陡涨陡落型。甘肃省大部分范围属于山地或丘陵地貌,实际洪水过程大多属于陡涨陡落型,表明模糊聚类结果与实际相符,模糊聚类效果较好。

4 分布式单位线经验公式推求 4.1 流域特征属性因子选取及公式型拟定

山丘区小流域洪灾发生的关键在于洪峰流量是否超过成灾流量,因此本文以分布式单位线的洪峰流量特征值为例,推求洪峰流量经验公式。国内外已有研究对洪峰流量经验公式设计、选取方面积累了丰富的成果,其中以陈家琦[34]提出的推理公式法在国内应用最为广泛,有关推理公式法的内容,可查阅相关文献或资料[34],本文不作具体展开。总结前人研究可以发现大部分洪峰流量经验公式型围绕流域面积、最长汇流路径及其坡降展开。式(15)为常见洪峰流量经验公式型。

${Q_{\rm m}} = k{F^a}{L^b}{i^c}$ (15)

式中: ${Q_{\rm{m}}} $ 为洪峰流量,m3/s; $F $ 为流域面积,km2 $L $ 为最长汇流路径长度,km; $ i $ 为最长汇流路径坡降; $k $ 为随地区和频率变化的综合系数; $a $ $b $ $c $ 为待拟合经验公式参数。洪峰流量经验公式型呈现非线性关系,这与小流域汇流非线性效应显著的现象相符。

采用遗传算法(GA)拟合经验公式(15)中的参数,以均方根误差(RMSE)作为目标函数(式(16)),并采用平均绝对误差(MAE)、平均相对误差(MRE)作为拟合结果的评价指标(式(17)~(18)),具体计算如下:

$RMS\!E = \sqrt {\frac{1}{N}\sum\limits_{i = 1}^N {{{({Q_{i\;{\text{单}}}}{\rm{ - }}{Q_{i\;{\text{拟}}}})}^2}} } $ (16)
$MAE = \frac{1}{N}\sum\limits_{i = 1}^N {\bigg| {{Q_{i\;{\text{单}}}}{\rm{ - }}{Q_{i\;{\text{拟}}}}} \bigg|} $ (17)
$MRE = \frac{1}{N}\sum\limits_{i = 1}^N {\left| {\frac{{{Q_{i\;{\text{单}}}}{\rm{ - }}{Q_{i\;{\text{拟}}}}}}{{{Q_{i\;{\text{单}}}}}}} \right|} $ (18)

式中, ${Q_{i\;{\text{单}}}} $ 为单位线峰值流量实际值, ${Q_{i\;{\text{拟}}}} $ 为单位线峰值流量经验公式计算值, $N $ 为小流域数目。

4.2 分布式单位线洪峰流量经验公式

选取甘肃省范围内共26 774个小流域,推求单位线峰值流量经验公式。分布式单位线各类别经验公式推求成果如表3所示,图6给出了8个分类的分布式单位线峰值流量经验公式拟合结果。

表3 各分类洪峰流量经验公式推求成果 Tab. 3 Empirical formulas of floodpeak discharge obtained from distributed unit hydrographs

图6 单位线峰值流量经验公式拟合散点图 Fig. 6 Scatter diagrams of empricial formulas for peak flow of unit hydrographs

表3图6可知,甘肃省全部小流域整体推求洪峰流量经验公式时,拟合RMSEMAEMRE系数均较大,说明甘肃省内不同小流域地形、下垫面条件差异较大,难以用唯一的经验公式推求所有小流域的分布式单位线洪峰值。经分类后,不同类别评价指标均有显著改善,其中5个类别MRE系数小于0.1 m3/s,且每一类别内的点均相对较为密集分布在y=x线周围,说明洪峰流量经验公式拟合效果较好,也进一步表明模糊聚类结果较为合理,同一类别内的单位线一定程度上能反映相似的流域汇流特性。分类2、4和8的MRE系数相对较差,拟合散点图整体分布相对较为离散。相比拟合效果较好的分类,分类2分布式单位线洪峰流量、汇流时间和峰现时间均相对偏小;分类4分布式单位线洪峰流量、汇流时间和峰现时间均最小;分类8分布式单位线洪峰流量较小,而汇流时间和峰现时间均较大,可对分类2、4、8进一步聚类分析,子分类的经验公式拟合效果将均有明显提升,可以在不牺牲洪峰流量计算精度的前提下,满足分布式单位线简化应用的需求。

此外,表3中所推求经验公式与流域面积 $F $ 、最长汇流路径 $L $ 及其坡降 $ i $ 呈非线性关系,其中:流域面积 $F $ 、最长汇流路径坡降 $ i $ 的指数参数 $a $ $c $ 均为正值,流域特征属性因子 $F $ $ i $ 与洪峰流量呈正相关,且参数 $a $ $c $ 基本变化不大;参数 $k $ 和最长汇流路径长度 $L $ 的指数参数 $b $ 变化相对较大, $L $ 与洪峰流量呈负相关。流域实际产汇流过程中,流域面积、最长汇流路径坡降越大,流域洪峰值越大,而最长汇流路径越长,对洪水消纳、坦化作用越明显,洪峰值越小,推求的经验公式参数合理,与流域洪水实际产汇流过程相符。

4.3 不同分类小流域区分量化及验证

选取流域面积、周长、平均坡度、形状系数、最长汇流路径及其坡降等特征属性,统计分析各分类小流域特征属性的分布规律,如图7所示。如前所述,小流域分布式单位线是流域大小、形状、地形地貌及植被覆盖类型等综合作用的结果。为了更好地运用所推求的洪峰流量经验公式,提高经验公式的实用性,围绕小流域汇流特征参数的归因辨识量化展开讨论。

图7 不同分类小流域特征属性数据分布(从左至右:分类1~8) Fig. 7 Distribution for small watershed characteristics in each cluster

图7可以看出,小流域面积、最长汇流路径长度、流域周长等特征属性在每个类别内分布均较为集中,且不同分类之间特征属性具有明显差异;而最长汇流路径坡降、流域形状系数、流域平均坡度等特征数据均分布较为离散,不同分类同一特征属性数据取值范围较为一致。考虑小流域面积与周长之间相关性较大,故选取流域面积及最长汇流路径长度作为不同类别小流域的区分量化指标。同时,图7也表明研究区域内不同类别之间小流域最长汇流路径坡降差异较小,影响甘肃省山丘区小流域汇流过程的主要因素为流域面积和最长汇流路径长度。不同类别均选取10%~90%区间的特征属性数据进行量化分析,图8展示了不同分类小流域区分量化指标,其中黑色虚线表示该分类下特征属性数据的中位数。

图8 不同分类小流域的区分量化指标成果 Fig. 8 Distinguished and quantified indices for watershed characteristics in each cluster

为了进一步验证上述量化指标的适用性,选取甘肃省尧甸和马街流域内两个小流域作为验证流域,流域面积分别为19.7、12.2 km2;最长汇流路径长度分别为10.5、7.3 km。依据图8区分量化指标,同时结合各分类特征属性数据中位数分布情况,可得分类1、5经验公式在尧甸小流域较适用;分类1、2经验公式在马街小流域较适用。表4给出了尧甸、马街两个小流域洪峰流量计算成果,可以看出计算成果与小流域单位线洪峰流量实际值基本一致,表明图8所示区分量化指标适用性较好。

表4 尧甸、马街小流域洪峰流量实际值和计算值 Tab. 4 Observed and simulated peak flows in Majie and Yaodianwatershed

5 结 论

山丘区小流域汇流过程受下垫面空间变化影响呈强非线性特征,相似流域的汇流特性有着天然的相似性。小流域分布式单位线综合反映了流域内地形、植被覆盖的空间差异对洪水汇流的影响,能够反映山丘区小流域的汇流特性。作者尝试将可变模糊聚类算法应用至小流域汇流单位线聚类,有效地划分了具有不同汇流特性的山丘区小流域。基于分布式单位线聚类结果,建立了分布式单位线峰值与小流域特征属性之间的经验关系,确定了不同类别下单位线洪峰值经验公式,并进一步提取分析了不同类别小流域区分量化指标。结果表明:经模糊聚类算法分类,分布式单位线经验公式计算效果有显著提升,聚类效果十分突出;对于分类拟合效果一般的类别,通过进一步模糊聚类分析,子分类可取得满意的拟合效果;流域面积、最长汇流路径长度及其坡降等流域特征因子对山丘区小流域汇流过程峰值影响显著,非线性经验公式型能够较好地反映分布式单位线洪峰值与流域属性特征之间的经验关系,以此建立的经验公式对于完善山丘区小流域汇流计算理论和方法,具有较大参考价值。

参考文献
[1]
Rodríguez-Iturbe I,Valdés J B. The geomorphologic structure of hydrologic response[J]. Water Resources Research, 1979, 15(6): 1409-1420. DOI:10.1029/WR015i006p01409
[2]
Gupta V K,Waymire E,Wang C T. A representation of an instantaneous unit hydrograph from geomorphology[J]. Water Resources Research, 1980, 16(5): 855-862. DOI:10.1029/WR016i005p00855
[3]
Maidment D R,Olivera F,Calver A,et al. Unit hydrograph derived from a spatially distributed velocity field[J]. Hydrological Processes, 1996, 10(6): 831-844. DOI:10.1002/(ISSN)1099-1085
[4]
郭良,丁留谦,孙东亚,等. 中国山洪灾害防御关键技术[J]. 水利学报, 2018, 49(9): 1123-1136.
[5]
孔凡哲,芮孝芳,李燕. 基于空间分布流速场的单位线推求及应用[J]. 河海大学学报(自然科学版), 2006, 34(5): 485-488. DOI:10.3321/j.issn:1000-1980.2006.05.002
[6]
郭良,孔凡哲. 分布式单位线在新安江模型中的应用[J]. 人民黄河, 2012, 34(8): 27-29. DOI:10.3969/j.issn.1000-1379.2012.08.009
[7]
郭良,张晓蕾,刘荣华,等. 全国山洪灾害调查评价成果及规律初探[J]. 地球信息科学学报, 2017, 19(12): 1548-1556.
[8]
宋晓猛,张建云,孔凡哲,等. 基于流域地形地貌特征的分布式汇流方法[J]. 长江流域资源与环境, 2015, 24(4): 585-593. DOI:10.11870/cjlyzyyhj201504008
[9]
Bezdek J C.Pattern recognition with fuzzy objective function algorithms[M].New York:Springer,1981.
[10]
陈守煜. 工程可变模糊集理论与模型—模糊水文水资源学数学基础[J]. 大连理工大学学报, 2005, 45(2): 308-312. DOI:10.3321/j.issn:1000-8608.2005.02.031
[11]
陈守煜.水资源与防洪系统可变模糊集理论与方法[M].大连:大连理工大学出版社,2005.
[12]
陈守煜.可变模糊集理论与模型及其应用[M].大连:大连理工大学出版社,2009.
[13]
Zadeh L A. Fuzzy sets[J]. Information and Control, 1965, 8(3): 338-353. DOI:10.1016/S0019-9958(65)90241-X
[14]
陈守煜,李敏. 基于可变模糊集理论的水资源可再生能力评价模型[J]. 水利学报, 2006, 37(4): 431-435. DOI:10.3321/j.issn:0559-9350.2006.04.008
[15]
邹强,周建中,周超,等. 基于可变模糊集理论的洪水灾害风险分析[J]. 农业工程学报, 2012, 28(5): 126-132. DOI:10.3969/j.issn.1002-6819.2012.05.021
[16]
周惠成,张丹. 可变模糊集理论在旱涝灾害评价中的应用[J]. 农业工程学报, 2009, 25(9): 56-61. DOI:10.3969/j.issn.1002-6819.2009.09.010
[17]
魏兆珍,冯平. 基于可变模糊集理论的滦河流域降雨径流演变特征分析[J]. 水利学报, 2011, 42(9): 1051-1057.
[18]
Buckles B P,Petry F E,Prabhu D,et al.Fuzzy clustering with genetic search[C]//Proceedings of the First IEEE Conference on Evolutionary Computation.IEEE World Congress on Computational Intelligence,Washington,D C:IEEE Computer Society,1994.
[19]
Al-Sultan K S,Selim S Z. A global algorithm for the fuzzy clustering problem[J]. Pattern Recognition, 1993, 26(9): 1357-1361. DOI:10.1016/0031-3203(93)90141-I
[20]
汪丽娜,陈晓宏,李粤安,等. 基于人工鱼群算法和模糊C-均值聚类的洪水分类方法[J]. 水利学报, 2009, 40(6): 743-748. DOI:10.3321/j.issn:0559-9350.2009.06.015
[21]
Bezdek J C,Ehrlich R,Full W. FCM:Fuzzy C-means algorithm[J]. Computers & Geoscience, 1984, 36(10): 691-698.
[22]
Bezdek J C. A physical interpretation of fuzzy ISODATA[J]. IEEE Transactions on Systems Man and Cybernetics, 1976, 6(5): 387-390.
[23]
Cannon R L,Dave J V,Bezdek J C. Efficient implementation of the fuzzy C-means clustering algorithms[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1986, 8(2): 248-55.
[24]
Mcbratney A B,Moore A W. Application of fuzzy sets to climatic classification[J]. Agricultural & Forest Meteorology, 1985, 35(1/2/3/4): 165-185.
[25]
Pal N R,Bezdek J C. On cluster validity for the fuzzy C-means model[J]. IEEE Transactions on Fuzzy Systems, 1995, 3(3): 370-379. DOI:10.1109/91.413225
[26]
Willet P.Recent trends in hierarchic document clustering:A critical review[J].Information Processing and Management,24(5):577–597.
[27]
Jain A K,Murty M N,Flynn P J. Data clustering:A review[J]. Acm Computing Surveys, 1999, 31(3): 264-323. DOI:10.1145/331499.331504
[28]
Sebestyen G. Pattern recognition by an adaptive process of sample set construction[J]. Ire Trans Information Theory, 2003, 8(5): 82-91.
[29]
Kaufman L,Rousseeuw P J.Finding groups in data:an introduction to cluster analysis[M].New York:John Wiley,1990.
[30]
Ng R T,Han J.Efficient and effective clustering methods for spatial data mining[C]//Proceedings of the 20th International Conference on Very Large Data Bases.San Francisco:Morgan Kaufmann Publishers Inc,1994.
[31]
Jung Y,Park H,Du D Z,et al. A decision criterion for the optimal number of clusters in hierarchical clustering[J]. Journal of Global Optimization, 2003, 25(1): 91-111. DOI:10.1023/A:1021394316112
[32]
Anderberg M R.Cluster analysis for applications[M].San Francisco:Academic Press,1973.
[33]
Charikar M,Chekuri C,Motwani R.Incremental clustering and dynamic information retrieval[J].SIAM Journal on Computing,2004,33(6):1417–1440.
[34]
陈家琦,张恭肃.小流域暴雨洪水计算[M].北京:水利电力出版社,1985.