文章目录
- 摘要部分
- 一、绪论
- 二、研究区历史火情分析
- 2.1凉山州森林火灾年际变化特征
- 2.2凉山州森林火灾月际变化特征
- 2.3凉山州森林火灾空间分布特征
- 2.4森林火灾等级与起火原因分析
- 三、数据与方法
- 3.1数据来源
- 3.2数据预处理
- 3.3研究方法
- 3.3.1逻辑回归:最大似然估计
- 3.3.2决策树
- 3.3.4随机森林
- 3.3.5K近邻算法
- 3.3.6XGBoost算法
- 3.4精度评估方法
- 3.4.1混淆矩阵
- 3.4.2准确率指标
- 3.4.3ROC曲线
- 四、火险因子与火点分布规律研究
- 4.1植被覆盖度
- 4.2植被类型
- 4.3可燃物含水率与温度植被干旱指数
- 4.4地形因子
- 4.5气象因子
- 4.6人为因素
- 4.7因子多重线性检验
- 五、基于机器学习的凉山州森林火险模型构建
- 5.1构建数据集
- 5.2模型训练
- 5.2.1逻辑回归训练模型
- 5.2.2决策树算法训练模型
- 5.2.3随机森林算法
- 5.2.4K近邻算法
- 5.2.5XGBoost算法
- 5.3模型结果与讨论
- 5.4林火风险模型驱动因子
- 5.5案例应用与分析
- 5.6精度比较
DOI:10.27486/d.cnki.ggjys.2023.000007
标题:基于遥感技术的凉山州森林火险预测方法研究
链接:知网
摘要部分
研究内容:构建有区域特色的高精度火灾风险预测模型
研究背景:选取凉山地区,基于多源遥感数据、气象因子、社会经济等数据,采用多种机器学习训练模型构建林火风险预测模型,选出区域最优模型。
研究方法:构建逻辑回归、决策树、随机森林、K_近邻和XGBoost五个算法的林火风险预测模型,采用混淆矩阵和ROC曲线进行评价。
一、绪论
研究目标:针对凉山州地理特色,挖掘遥感数据的特点,构建高精度火灾风险预测模型
研究内容:
- 火情时空分布规律
- 时空分布规律研究:2005-2018年火点的时空分布特征,研究林火随年份、月份的时间变化规律及17个县级行政区的空间分布特征。
- 林火等级及原因:统计林火等级、面积、起火原因。
- 火险因子分析:研究14个火险因子与火点分布之间的关系,即利用14个火险因子构建数据集。
- 高精度林火风险模型构建:构建逻辑回归、决策树、随机森林、K_近邻和XGBoost五个算法的林火风险预测模型。
二、研究区历史火情分析
对森林火灾规律进行时空分析,共875场林火。
2.1凉山州森林火灾年际变化特征
2005-2018森林火点数量年际变化:
火点共875个,平均每年63个,年份之间差异巨大,整体为波动状态。
2.2凉山州森林火灾月际变化特征
主要集中在1-4月(89%),之后急剧下降。
2.3凉山州森林火灾空间分布特征
Arcmap将14年火点数据与行政区矢量图结合,发现火点主要集中于凉山州西部,且西北部火点数量明显多于西南部:
2.4森林火灾等级与起火原因分析
森林火灾分为一般火灾、较大火灾、重大火灾、特大火灾四种,总体起火时间集中在1-4月:
起火原因如下:
2017年1月至2019年1月之间,火场面积相对平稳,2019年1月后,出现较大波动和多峰值。
三、数据与方法
3.1数据来源
选用可燃物、地形、气象、人为四方面因子进行火险预测。
- 可燃物:植被覆盖度、植被类型、可燃物含水率、温度植被干旱指数。
- 可燃物含水率:单位质量或重量可燃物的水分含量。
- 可燃物好含水率:表征区域干旱程度
- 植被覆盖度:影响林火的发生概率、火行为的蔓延和林火烈度。
- 植被类型:遥感数据通过分析植物的光谱特征反映生长和分布状况,植被光谱特征受到植物叶子的颜色、组织构造、含水量和植被的覆盖度等的影响,不同植被的特征可通过遥感影像反演,从而对植被特征进行划分。
- 地形因素:高程、坡度、坡向、降雨量、气温。
- 坡度:影响可燃物含水率的变化,平缓地区降水容易积累,含水率高。
- 坡向:接收阳光照射不同,温度、水分、植被都会有差异。
- 高程:高程升高,气温下降而形成植被的垂直分布特征,影响林火的发生。
- 气象因子:连续无降水日、风俗、相对较小湿度。
- 人为因素:居民点、道路。
- 植被覆盖度:中国区域250m植被覆盖度数据集,合成方式为月最大值合成,采用基于归一化植被指数(NDVI)像元二分模型,根据土地利用类型确定纯植被像元值和纯裸土像元值,实现植被覆盖度计算。
- 可燃物含水率:单位质量或重量可燃物的水分含量,用%表示。可燃物指地表堆积可燃物,MODIS(中分辨率成像光谱仪,用于观测波段)第七波段对水分敏感。NDII7可较好表征可燃物含水率,值越小代表地表湿度越低。
3.2数据预处理
生成植被类型图:
植被类型包括农田(旱作农田+灌溉农田)、草地(草本植被+草原)、常绿阔叶林(开阔的常绿阔叶林+郁闭的常绿阔叶林)、落叶阔叶林(开放落叶阔叶林+郁闭落叶阔叶林)、常绿针叶林(开阔常绿针叶林+郁闭常绿针叶林)、灌木林(灌木地+常绿灌木地)。
温度植被干旱指数TVDI(Temperature Vegetation Dryness Index)研究区域干旱程度,计算方法:
- T s m i n = a + b ∗ N D V I Tsmin=a+b*NDVI Tsmin=a+b∗NDVI:湿边方程
- T s m a x = c + d ∗ N D V I Tsmax=c+d*NDVI Tsmax=c+d∗NDVI:干边方程
计算出逐月的TVDI值。
可燃物含水率采用归一化红外指数7(NDII7),较低的干燥植被比更易发生燃烧。采用MOD09GA数据计算NDII7指数来表征可燃物的含水率。NDII7计算方法:
N D I I 7 = ( B 1 − B 2 ) / B 1 + B 2 NDII7=(B1-B2)/B1+B2 NDII7=(B1−B2)/B1+B2
B1=band2+6.0band1-7.0band3,B2=band7,有:
- band1:红光波段反射率
- band2:修正前的近红外波段反射率
- band3:蓝光波段反射率
- band7:7波段反射率
3.3研究方法
3.3.1逻辑回归:最大似然估计
对于一个样本 ( x , y ) (x,y) (x,y), x x x由d个特征描述, x x x和 y y y之间有隐含映射 f ( x ) = y f(x)=y f(x)=y。线性模型目的是学习一个函数 f ~ \tilde{f} f~来最大限度拟合隐含映射 f f f,表达式:
f ~ ( w , b , x ) = w x + b = y ~ \tilde{f}(w,b,x)=wx+b=\tilde{y} f~(w,b,x)=wx+b=y~
其中,w、b分别为权重矩阵和偏置,后者用于增加线性模型的拟合能力。损失函数常使用均方误差函数:
m i n ( y − y ~ ) 2 = m i n ( y − w x − b ) 2 min(y-\tilde{y})^2=min(y-wx-b)^2 min(y−y~)2=min(y−wx−b)2
令 E = ( y − w x − b ) 2 E=(y-wx-b)^2 E=(y−wx−b)2,对E求w、b的偏导:
令偏导数等于0得:
普通的线性回归模型主要用于处理和预测连续型数据的算法。而逻辑回归由线性回归变化而来,是一种线性分类器,主要用于处理分类任务。其本质是使用sigmoid函数将线性回归的值转换到(0,1)之间,这个值就是分到设定类的概率。sigmoid函数定义如下:
将z=wx+b带入得到:
化简:
( 1 − y ) / y = e − w x + b (1-y)/y=e^{-wx+b} (1−y)/y=e−wx+b
两边同取对数(b的符号不重要,保持为+号),得到:
- y:类别1的概率。
- 1-y:类别0的概率
逻辑回归的运算过程如下:
本实验是二分类任务,故使用单位阶越函数将结果转化为两种类别以实现分类:
- z>0:类别1
- z=0:任意类别
- z<0:类别2
即,以0.5作为sigmoid函数输出的分界线,当sigmoid函数输出值小于0.5时,表示样本的标签认为是0,反之则认为标签是1,这样既可得到一个分类模型。
本实验的逻辑回归中通过最大似然估计求取参数值。最大似然原理如下:
极大似然估计的思想即为,忽略低概率事件而直接将高概率事件认为是真实事件。
详解间:CSDN
3.3.2决策树
详细计算案例可参考:CSDN
决策树算法常用于分类和回归任务。它通过对数据集进行反复的二分划分,构建一棵树状结构,每个非叶节点代表一个特征属性上的决策,每个叶节点代表一个类别标签或回归值。
- 信息熵:用于量化信息的不确定性,是对可能性的一种度量,一个事件的不确定性越大,我们从该事件的发生中获得的信息就越多。注意,熵永远都是非负的,当随机变量的取值确定(仅有一个取值)时,熵为0,而当所有类别发生的概率都相等时(即分布是均匀分布),熵达到最大值。
计算方式:
- H ( X ) H(X) H(X):随机变量X的熵。
- x i x_i xi:随机变量的一个可能取值。
- p ( x i ) p(x_i) p(xi):该取值的概率。
- n n n:随机变量所有可能取值的数目。
信息熵反应了样本集的纯度,其值越小,样本集的纯度越高,即大多数样本属于同一个类别。
- 信息增益:通过父节点的信息熵减去所有子节点加权信息熵的总和得到。ID3算法会选择具有最大信息增益的特征作为当前节点的最优划分属性。信息增益的计算公式为:
- H(D):原始数据集D的信息熵
信息增益的含义为,知道某个特征的信息之后,数据集不确定性减少的程度。
经典决策树算法ID3流程如下:
- 1.计算父节点信息熵。
- 2.计算不同特征的信息熵增益,即,按照这个特征划分数据后得到的子节点的加权信息熵,加权信息熵是指每个子节点的信息熵乘以一个权重,这个权重是子节点样本数占父节点样本数的比例。
- 3.在所有特征中选择信息增益最大的一个作为当前节点的最优划分特征。
- 4.对每个由最优特征划分出的子数据集,重复以上过程,直到满足停止条件(如所有样本属于同一类别或没有更多特征可用)。
例:
- F1:样本属性1,取值包括A、B、C。
- F2:样本属性2,取值包括D、E、F。
样本信息熵:
计算每一个属性的信息增益。当以F1作为样本的划分依据时,由于F1有A、B、C共三个取值,故将样本划分为3类 S 1 、 S 2 、 S 3 S_1、S_2、S_3 S1、S2、S3。
- S 1 S_1 S1:6个样本,正反例各占3/6.
- S 2 S_2 S2:6个样本,正例占4/6,反例占2/6.
- S 3 S_3 S3:5个样本,正例占1/5,反例占4/5.
计算三种按特征F1划分之后三个子集的信息熵:
从而得出样本按F1划分后的信息增益:
同理可计算出按F2划分时的信息增益:
可知,按F2划分时信息增益较大(即,不确定因素下降),故按F2将样本集划分为三个子集。在每个子集内再次计算按F1、F2划分时的信息增益,并不断重复上树过程,直到满足停止条件(子集中所有样本的标签相同或没有更多特征可用于分裂)。
3.3.4随机森林
详解可见:CSDN
决策树算法是一种基于if-then-else规则的有监督学习算法,基本逻辑如下:
随机森林算法则由多种决策树组成,不同决策树之间没有关联。当我们进行分类任务时,新的输入样本进入,就让森林中的每一棵决策树分别进行判断和分类,每个决策树会得到一个自己的分类结果,决策树的分类结果中哪一个分类最多,那么随机森林就会把这个结果当做最终的结果。
随机森林的构建思路为,每棵决策树训练时都从原始数据集进行有放回的随机抽样(即Bootstrap抽样),并在每个节点分裂时随机选择部分特征进行最佳分裂。最终结果通过对所有树的预测结果进行投票(分类)或平均(回归)来确定。步骤如下:
- Bootstrap抽样:从原始数据集中随机抽取多个样本子集,每个子集用于训练一棵决策树。
- 特征选择:在每个节点分裂时,随机选择部分特征。计算信息增益并进行划分。
- 决策树构建:根据选定的样本子集和特征,构建多棵决策树。
- 结果集成:对于分类任务,通过对所有树的预测结果进行投票决定最终分类结果;对于回归任务,通过对所有树的预测结果进行平均决定最终回归结果。
3.3.5K近邻算法
K近邻(KNN)算法常用于分类、回归任务。基本思想为:给定一个待分类样本,找出与其距离最近的k个训练样本(邻居),然后通过这k个邻居的类别来决定待分类样本的类别,即这K个样本的多数属于某个类,就把该输入样本分类到这个类中。而在分类任务中,一般通过k个邻居的目标变量值的平均值来预测待测样本的目标变量值。
3.3.6XGBoost算法
XGBoost(极端梯度提升树)由大量决策树构成,与随机森林不同,组成XGBoost的决策树之间有先后顺序,后一棵决策树的生成会考虑前一棵决策树的预测结果,使得先前决策树做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一棵决策树。
3.4精度评估方法
3.4.1混淆矩阵
混淆矩阵用于总结模型预测结果,并存储到矩阵中:
混淆矩阵中,每一列代表了预测值,每一行代表了真实值。含义如下:
- True Positive (TP):模型将实际为正类别的样本正确预测为正类别。
- False Negative (FN):模型将实际为正类别的样本错误预测为负类别。
- False Positive (FP):模型将实际为负类别的样本错误预测为正类别。
- True Negative (TN):模型将实际为负类别的样本正确预测为负类别。
通过混淆矩阵,可计算出一系列的性能指标。举例,当下有一个垃圾邮件检测器,将电子邮件分为垃圾邮件(正类别)和非垃圾邮件(负类别)两类。测试集共有100个样本,预测结果如下:
- 模型将60封实际是垃圾邮件的邮件预测为垃圾邮件(True Positive, TP = 60)。
- 模型将10封实际是垃圾邮件的邮件错误地预测为非垃圾邮件(False Negative, FN = 10)。
- 模型将5封实际上不是垃圾邮件的邮件错误地预测为垃圾邮件(False Positive, FP = 5)。
- 模型将25封实际上不是垃圾邮件的邮件正确预测为非垃圾邮件(True Negative, TN = 25)。
真实标签\预测标签 | 预测为垃圾邮件(正类别) | 预测为非垃圾邮件(负类别) |
---|---|---|
实际是垃圾邮件(正类别) | 1——>1,TP=60 | 1——>0,FN=10 |
实际是非垃圾邮件(负类别) | 0——>1,FP=5 | 0——>0,TN=25 |
3.4.2准确率指标
常见准确率指标如下:
- 精确度(Accuracy):模型预测正确的样本数与总样本数之比。
A c c u r a c y = ( T P + T N ) / ( T P + F P + F N + T N ) Accuracy=(TP+TN)/(TP+FP+FN+TN) Accuracy=(TP+TN)/(TP+FP+FN+TN)
- 召回率(Recall):模型正确预测正例样本的比例。
- 准确率(Precision):模型预测为正例的样本中,真正例的比例。
- F1值:综合了准确率和召回率。
3.4.3ROC曲线
计算案例见:CSDN
ROC曲线常用于评价二分类器的优劣。
ROC曲线的计算基于真阳性率(TPR)和伪阳性率(FPR),其横坐标是伪阳性率,指标越低代表误判率越低,纵坐标是真阳性率,该指标越高代表预测准确度越高。
- 真阳性率(TPR):也称为召回率,即正样本被正确分类为正样本的比例,计算公式为:
- 伪阳性率(FPR):表示负样本不能被正确分类的比例,计算公式为:
ROC图中有虚线作为基准线(最低标准),蓝色曲线为ROC曲线,ROC曲线离基准线越远,模型预测效果越好。有:
- ROC 曲线接近左上角:模型预测准确率很高。
- ROC 曲线略高于基准线:模型预测准确率一般。
- ROC 低于基准线:模型未达到最低标准,无法使用。
AUC(Area Under Curve)是ROC曲线下与坐标围成的面积,取值范围为[0.5,1],值越大代表模型预测效果越好。
四、火险因子与火点分布规律研究
使用植被覆盖度反映可燃物的载量,利用可燃物含水率和温度植被干旱指数表征可燃物的干燥程度。
4.1植被覆盖度
植被覆盖度有如下等级:
- 低覆盖度:≤30%
- 中低覆盖度:30~45%
- 中覆盖度:45~60%
- 高覆盖度:60%
随着植被覆盖度的增加,火点呈现急剧增加的趋势。
- 高植被覆盖度地区:726个火点分布。
- 中覆盖度地区:118个火点分布。
- 中低覆盖度地区:50以下。
4.2植被类型
2005年植被类型与火点分布:
2010年植被类型与火点分布:
2015年植被类型与火点分布:
火点在不同植被类型熵分布差异较大。
4.3可燃物含水率与温度植被干旱指数
可燃物含水率:
火点对应可燃物含水率在[0,0.8]之间,有:
- [0.4,0.7]:745个
- [0.5,0.6]:322个
- [0.4,0.5]:304个
温度植被干旱指数(TDVI),是一种基于光学与热红外遥感通道反演植被覆盖度区域表层土壤水分反演指数,用于反映某一时段区域的相对干旱程度:
TDVI越大,表示土壤干旱程度越高。有:
- [0.5,0.6]:170个
- [0.6,0.7]:162个
4.4地形因子
- 高程:某点沿铅垂线方向到绝对基面的距离。火点与高程分布的关系:
火点相对集中分布于1800~3188m的高程之间。不同高程,植被类型及其易燃性不同,因此火点分布差异较大,在高程较低的地方建设用地较多,森林少,林火少;高程较高的地方植被生长受限,林火风险较低。
- 坡度:研究区坡度分为平、缓、斜、陡、急、险共6级。
坡度较缓的地方相对开发程度高,林火较少;坡度陡,降水停留时间短且流失块,可燃物更干燥。
- 坡向:坡向分为北坡、东北坡、东南坡、南坡、西南坡、西坡、西北坡八种。
火点在坡向分布上相对均匀。但不同坡向植被会因太阳辐射的差异而含水量不同,一般阳坡植被含水量低、可燃性高。
4.5气象因子
- 降雨量:火点分布集中在降水量较多和较少的地区,较多的地区植被生长茂盛,可燃物堆积量大,易引发火灾;较少的地区相对干燥,同样易引发火灾。
- 气温:指火点对应时间前15日平均最高气温。
- 连续无降水日:火点前30日连续无降水日的规律。集中在8日、23日、27日火点数量较多,火点分布在连续无降水日较大的区域较多。
- 风速:火点对应前两日的最大风速与火点之间的规律。总体变化趋势为,随着风速增加,火点数量也出现增加,[7,11]区间内则虽风速增加,火点数量逐渐减少。
4.6人为因素
- 居民点:计算研究区居民点密度并叠加火点图。
火点随居民点密度的增加出现明显的下降,居民点密度大的地区植被数量少,且火灾在开始时容易被发现;而居民点密度小的地区一旦发生林火,一般很难发现。
- 道路:道路分布与密度反映认为活动的范围和频次。
4.7因子多重线性检验
- 数据归一化处理:将需要处理的数据去量纲并映射到指定范围。归一化将不同单位或量级的指标数据变为纯量,消除因子之间不同量纲、量纲单位的影响,便于不同单位和量级的指标能够进行比较和加权。
即,数据归一化处理将数转换为(0,1)之间的小数,并将有量纲的表达式转换为无量纲的表达式。本文使用Min-Max标准化方法对数据进行线性变换,计算正、负向因子的方式如下:
- 多重共线性分析:回归方程中各变量之间可能存在近似的线性关系(某一变量可由其他变量线性组合代替),很大程度影响模型可解释性、增加数据冗余性、影响计算速度。在分析多个预选取因子与林火风险概率之间的关系时,应当进行多重共线性检验,排除存在显著共线性的风险因子,提高预测模型的准确性。常见共线性检测方法包括相关系数法、方差膨胀因子、特征值法。
本文采用方差膨胀因子法,度量多个自变量之间的多重共线性程度,计算公式为:
R 2 R^2 R2表示自变量与其他自变量之间的决定系数,若VIF大于10,则表明自变量存在较严重的多重共线性问题。
使用SPSS软件进行风险因子的共线性检验。通过共线性统计中的容差与VIF(方差膨胀因子)判断自变量的共线性,容差和VIF互为倒数。有:
- 容差≤0.1:因子间存在严重共线性。
- VIF<3:因子间没有共线性问题。
初步确定,因子共线性较低。采用皮尔逊相关系数再次检验因子相关性,其用于科学反映变量间相关程度,计算方式为:
其中,x、y为火险因子,var为二者方差。皮尔逊系数取值为[-1,1],认:
- 绝对值大于0.8的因子有高度相关性。
- 绝对值在[0.4,0.8]的因子相关性中等。
- 绝对值在[0,0.4)的因子相关性低。
只有道路密度和居民点密度之间皮尔逊系数为0.48,可认为14个因子均可用于模型构建。
五、基于机器学习的凉山州森林火险模型构建
5.1构建数据集
使用arcmap软件在研究区生成随机点,剔除与火点重合的点,并随机匹配2005-2017年防火期任意日期,生成了非火点数据集。训练集、验证集和测试集划分比例如下:
在创建标签数据集后需完成数据预处理工作。首先对数据进行标准化处理,选择均值-标准差标准化方式,将属性值映射到-1到1之间,并使属性值更接近正态分布。如数据集 ( x i , y i ) (x^i,y^i) (xi,yi),其中 x i x^i xi为输入数据向量,共14维, y i y^i yi则为样本数据对应的标签,且以1表火点,0表非火点。对输入数据进行均值-标准差标准化处理:
其中 x j x_j xj表示该样本第 j j j个因子的值, u j 、 δ j u_j、δ_j uj、δj分别表示数据集所有样本第 j j j个因子的均值、标准差。
5.2模型训练
5.2.1逻辑回归训练模型
为防止过拟合,需确定最优迭代次数,故计算不同迭代次数下逻辑回归算法中各特征权重在验证集上的变化并绘制权重变化曲线。高程的权重与偏置随迭代次数的变化曲线如下:
可见,随迭代次数的增加,权重和偏置都快速收敛,最优迭代次数为30次。得到迭代30次时权重系数的值(维度为1*14):
而偏置为-0.218,逻辑回归算法在测试集上的准确率为58.4%。
5.2.2决策树算法训练模型
构建并优化决策树,使其能拟合林火风险和14个林火影响因子之间的映射。使用基尼系数作为决策树叶节点划分的标准,当所有样本都被准确划分到不同类别时,决策树训练停止。决策树构建过程如下:
不同分类任务,决策树有不同参数需确定。以决策树深度为例,使用训练集对有不同最大深度的决策树进行训练,准确率随最大深度的变化曲线如下:
注意,最大深度仅仅是模型训练时设定的参数,实际决策树未达到最大深度就可能已完成对数据集的划分,实际树深度和最大深度关系如下图:
在最大深度与准确率关系的图中,随最大深度的增加,准确率也不断提升,当层数达到21时,准确率在0.66附近波动。而在最大深度与实际深度的关系图中,当最大深度超过21时,实际深度不再增加。表明决策树深度达到21时已学习到火点或非火点与林火影响因子之间的映射,故决策树最大深度应选为21。
展示决策树前三层结构:
决策树从根节点处按温度植被干旱指数划分为两个子集,对应基尼系数为0.498;两个子集分别按照坡向和坡度进行划分,以此类推,直至划分出最终结果,完成决策树训练。
5.2.3随机森林算法
随机森林由多棵决策树组成,将训练集划分为不同子集对不同树进行训练综合得到最好的分类结果。随机森林最重要的参数是包含决策树的数目,使用控制变量法得到随机森林在验证集上准确率随决策树数目变化的曲线:
可确定最优决策树数目为200.随机森林生成流程如下:
随机展示一棵决策树的结构,其准确率为72.9%:
5.2.4K近邻算法
使用控制变量法绘制准确率随K值变化的曲线,确定最优K值为40,准确率为65.73%:
K近邻算法流程如下:
5.2.5XGBoost算法
训练流程如下(仅有前四层结构):
需通过控制变量法确定最优决策树数目和最优决策树深度,绘制关系图:
选择决策树数目为200,决策树层数为18,XGBoost准确率为74%。随机展示两棵决策树前四层:
5.3模型结果与讨论
- 逻辑回归:植被覆盖度、道路密度等因子与火险概率有显著线性关系,故拟合效果相对较好,而可燃物含水率、坡向等因子与火险概率无完全的线性关系,故拟合效果差。
- K近邻算法:精度高,但对数据集依赖性较高,存在大量样本需要分类时,计算效率较低。
- 决策树算法:能较好拟合火险因子和火险概率之间的高度非线性映射。但在火险因子较多时,在风险预测时常陷入局部最优解,导致整体精度较低。
- 随机森林:构建多棵不同决策树,改善决策树算法问题,大大提高精度,但因子较多,存在少量数据缺失和无效值,随机森林对缺失值敏感,精度会受到影响。
- XGBoost:整合了多棵决策树,且解决随机森林对缺失值敏感的问题,效果最佳。
五种模型混淆矩阵如下:
- 随机森林和XGBoost在火点预测上火点个数最多为115,但非火点预测中XGBoost比随机森林稍好。
五种模型ROC曲线如下:
随机森林与XGBoost火点预测准确度最高,AUC最高位0.787.
5.4林火风险模型驱动因子
以下是对逻辑回归、决策树、随机森林、XGBoost林火风险预测模型的驱动因子权重和特征重要性进行分析(K近邻原理是计算样本数据间的距离,无法定量表示不同林火风险因子的重要性):
- 逻辑回归模型:高程、最小湿度是负相关性较高的因子,植被覆盖度、道路密度是正相关性较高的因子。
- 决策树模型:气象因素中的风速、人为因素对模型影响较大。
- 随机森林模型:高程、最小相对湿度、居民点密度是重要性较高的几个因子。
- XGBoost:气象因子、可燃物因子、人为因素是重要性较高的几个因子。
5.5案例应用与分析
使用XGBoost模型以凉山州2018年四场真实历史火点为验证数据,得到凉山州森林火灾风险空间概率分布图,并得到以下预测:
使用自然断点法进行火险等级划分,将火险等级划分为极低风险区、低风险区、中风险区、高风险区和极高风险区。得到:
5.6精度比较
将模型结果与森林火险气象等级预报进行比较:
- 2月18日:气象预报预测火点处为火险气象较高区,模型预测结果为高风险区。
- 4月5日、18日和5月11日:火点未分布在气象预报风险区,但分布在模型预测高风险区。