摘要: 针对矿山通风系统数据中普遍存在的噪声、异常值和冗余等问题,提出了一种基于机器学习的数据清 洗方法,旨在为矿井智能风险预警、通风策略调整和环境管理等决策过程提供可靠数据。构建了一个包含环境监测 参数、风机运行参数和安全运营参数等关键参数的数据集,该数据集支持数据清洗算法开发,并且作为评估数据清洗 方法的基准。基于构建的数据集,提出了一种综合性的机器学习驱动的数据清洗框架。首先,采用自回归模型对时间 序列数据中的缺失值进行估计和填补,该模型能够有效利用数据的时间相关性,提高缺失数据处理的准确性。其次, 引入孤立森林算法,通过构建多个随机树来孤立和识别数据点,该模型适合处理高维通风数据中的异常检测问题,能 够有效提高异常值的识别率。最后,使用K-均值聚类算法,通过分析数据特征将相似数据点聚合,以减少重复或相似 的数据记录。试验结果表明,提出的数据清洗方法有效提高了矿井通风数据质量,为矿井通风管理提供了高质量的 数据支持,展现出良好的工程应用价值。