论文出处:https://www.sciencedirect.com/science/article/pii/S1674775524000726
滑坡是破坏性自然灾害,导致全球范围内的灾难性破坏和生命损失。准确预测滑坡位移能够实现有效的预警和风险管理。然而,现场测量数据的有限可用性一直是开发数据驱动模型(如最先进的机器学习模型)的主要障碍。为了解决这些挑战,本研究提出了一种使用生成对抗网络(GANs)进行数据增强的框架,以提高滑坡位移预测的准确性。该框架提供有效的数据增强以增强有限的数据集。提出了一种专门设计的循环GAN模型,RGAN-LS,用于生成逼真的合成多变量时间序列,以模拟真实滑坡现场测量数据的特征。在训练RGAN-LS期间,除了对抗性损失外,还引入了自定义的矩匹配损失,以捕捉真实时间序列数据的时间动态和相关性。然后,使用RGAN-LS生成的合成数据来增强长短期记忆(LSTM)网络和粒子群优化支持向量机(PSO-SVM)模型的训练,以进行滑坡位移预测任务。在三峡库区两个滑坡上的结果表明,使用增强数据训练的LSTM模型的预测性能显著提高。例如,在白水河滑坡的情况下,平均均方根误差(RMSE)提高了16.11%,平均绝对误差(MAE)提高了17.59%。更重要的是,模型在变形加速阶段的响应能力得到了增强,以用于早期预警目的。然而,结果显示,静态PSO-SVM模型相比循环模型(如LSTM)只有边际收益。进一步的分析表明,最佳的合成与真实数据比(在示例案例中为50%)最大化了改进。这也证明了通过补充训练数据来获得更好结果的动态模型的稳健性和有效性。通过使用强大的生成AI方法,RGAN-LS可以生成高保真度的合成滑坡数据。这对于提高在训练数据有限的情况下先进机器学习模型预测滑坡位移的性能至关重要。此外,这种方法有潜力扩展生成AI在地质灾害风险管理和其他研究领域的应用。
1)用于数据增强的GAN a. GAN的基本架构: GAN(生成对抗网络)由两个主要组件组成:生成器(G)和判别器(D)。生成器从随机噪声中生成合成数据,而判别器尝试区分真实数据和合成数据。两个组件以对抗的方式进行训练,以提高生成器生成逼真数据的能力,使其能够欺骗判别器。目标是达到纳什均衡,使生成器的输出与真实数据无法区分。 b 用于滑坡数据增强的RGAN-LS: 提出的RGAN-LS(用于合成滑坡数据的循环生成对抗网络)模型利用循环神经网络(RNN)来捕捉时间序列数据中的时间相关性。RGAN-LS在生成器和判别器中使用长短期记忆(LSTM)单元,以处理时间依赖性和消失梯度问题。生成器从均匀分布中采样的潜在向量序列生成合成时间序列数据,以模拟真实的滑坡测量数据,如水库水位、降雨量和位移。 (2)试验步骤 a. 位移分解: 累积位移时间序列使用霍德里克-普雷斯科特滤波器(Hodrick-Prescott filter)分解为趋势项和周期项。这种分解有助于将平滑趋势与周期波动分开,以实现更准确的预测。 b. 趋势位移预测: 趋势部分使用双指数平滑(Double Exponential Smoothing, DES)进行预测,该方法应用两层指数平滑以考虑观测值和趋势。DES结合平滑观测值和趋势估计来进行一步预测,通过最小化均方根误差(RMSE)优化平滑因子。 c. 周期性位移预测: 选择影响周期性位移的特征,如水库水位、降雨量和过去的位移。周期性部分使用复杂的机器学习模型进行预测,这些模型通过RGAN-LS生成的合成数据增强。 (3)趋势和周期位移预测 a. 用于模型训练的合成数据: 使用RGAN-LS生成的合成数据来增强LSTM和PSO-SVM等机器学习模型的训练数据集。增强的数据提高了模型的预测性能,特别是LSTM等动态模型,在准确性和响应能力上有显著提升。 b. 性能评估: 在三峡库区的两个滑坡案例中评估数据增强方法的有效性。结果显示,使用增强数据的LSTM模型的性能显著提升,而PSO-SVM模型的提升较为边际。研究还探讨了合成数据与真实数据的最佳比例,发现50%的比例可以最大化性能提升。
图2 白水河滑坡ZG93监测点的累计位移、周期项位移、趋势项位移,滑坡降雨量以及库水位数据
图3 树坪滑坡ZG88监测点的累计位移、周期项位移、趋势项位移,滑坡降雨量以及库水位数据
图4 使用DES方法预测白水河和树坪滑坡的趋势项位移
图5 白水河滑坡累积位移预测结果:(a)无GAN的LSTM; (b)使用GAN增强LSTM;(c)所得平均结果的比较
LSTM模型;(d)无GAN的PSO-SVM;(e) GAN增强PSO-SVM;
(f) PSO-SVM模型平均结果比较。
图6 树坪滑坡累积位移预测结果:(a)无GAN的LSTM;(b)使用GAN增强LSTM;(c)所得平均结果的比较 LSTM模型;(d)无GAN的PSO-SVM;(e) GAN增强PSO-SVM;(f) PSO-SVM模型平均结果比较。
本研究提出了一种新颖的GAN,RGAN-LS,通过增强有限的现场测量数据来提高ML模型在滑坡位移预测中的性能。RGAN-LS使用RNN来捕捉多变量时间序列数据中的复杂时间相关性,并采用自定义的对抗损失和矩匹配损失函数生成模拟真实数据特征的合成样本。定性和定量评估表明,RGAN-LS成功地再现了现场测量数据的时间动态和相关性。然后将这些合成样本用于增强LSTM和PSO-SVM模型的训练,以预测滑坡位移。两个滑坡案例的结果显示,数据增强的LSTM模型在预测性能(包括单一最佳性能和平均性能)和响应能力(特别是在变形加速阶段)方面显著优于基线模型。这表明,所提出的生成方法在增强下游应用(如滑坡位移预测)的动态网络方面非常有效。进一步的分析显示,最佳的合成与真实数据比可以最大化性能提升。相比之下,虽然在重复实验中最佳预测有所改进,但在静态PSO-SVM模型的平均性能中只观察到边际收益。然而,必须承认本研究存在某些局限性。例如,GAN的训练需要额外的计算成本和仔细的超参数调整以达到最佳性能。此外,特别是使用定量评估指标来评估合成数据的质量存在挑战。未来的工作可以探索额外的指标以进行更全面的评估。总之,本研究提出了一种新颖的数据增强框架,以应对滑坡位移预测中数据稀缺的关键挑战。通过RGAN-LS生成逼真的合成训练样本,可以增强数据驱动模型的预测性能,为在数据稀缺情况下利用ML模型的能力提供了一个有前景的解决方案。生成AI方法如GANs扩展了数据驱动模型在地质灾害管理中的能力。通过生成合成数据提高模型准确性,它们增强了预警系统。此外,它们还为未来研究中的多种应用提供了潜在的好处。
图7 不同合成-真实样本量比下,PSO-SVM对白水河滑坡的平均预测结果,95%置信区间值(括号内)。
a. 更广泛的应用场景:将该方法扩展至滑坡预测以外的其他地质灾害,能够拓展其实用性。将该框架适应不同类型的灾害和环境条件,可以使其成为灾害风险管理的全面工实时数据整合:开发集成合成和实时数据的方法可以提高模型的响应性。这包括持续更新模型以获得新数据,并在GAN框架内实施在线学习算法。 b.评估指标和标准:建立评估合成数据质量的标准化指标对于评估模型性能至关重要。与领域专家合作验证合成数据与真实观测结果之间的关系可以增强模型的可信度。 c. 计算效率:解 决GAN训练的计算需求对于实际部署至关重要。优化训练过程、减少开销并探索轻量级架构可以使该方法在资源受限环境中更易于使用。 d. 跨学科合作:数据科学家、地质学家和环境工程师之间的合作可以产生更强大的解决方案。与当地社区和利益相关者合作确保模型扎根于真实经验并与实际应用相关。