首页 > 医疗资讯/ 正文

Scientific Reports :以水媒疾病为例,新型特征空间方法在多重时空罕见疾病集群检测中的应用

来源 2025-11-04 12:11:47 医疗资讯

水媒疾病是全球公共卫生领域面临的重大挑战之一,尤其在中低收入国家,由于水资源管理、卫生设施和健康教育等方面的不足,导致此类疾病的高发病率和死亡率。世界卫生组织数据显示,全球每年有约150万人因水媒疾病死亡,其中五岁以下儿童受影响最为严重。巴基斯坦作为发展中国家,其水资源安全问题尤为突出,全国仅有约40%的人口能够获得安全管理的饮用水,而水媒疾病占所有疾病比例的30%至50%,并导致约40%的死亡病例。在开伯尔-普赫图赫瓦省,水资源污染问题因老旧基础设施、污水泄漏和处理系统不足而加剧,近80%的水样被检测为不适合饮用,这进一步导致霍乱、伤寒、肝炎和血性腹泻等疾病的暴发。因此,开发高效、准确的时空集群检测方法,对于早期发现高风险区域、优化资源分配和制定针对性干预措施具有重要意义。

在流行病学研究中,时空集群检测是分析疾病分布和传播动态的核心工具。传统的扫描统计方法,如基于圆形或椭圆形窗口的扫描统计,虽然在检测规则形状集群方面表现良好,但对于受自然边界或城市景观限制的不规则形状集群检测能力有限。此外,这些方法通常依赖于参数假设,如泊松或高斯分布,限制了其在复杂现实数据中的应用。为了克服这些局限,Fanace-T和Gama提出了基于特征空间的EigenSpot算法,该算法无需特定数据分布假设,能够有效检测单一时空集群,但无法识别多个热点。随后,Ullah等人扩展了该方法,提出Multi-EigenSpot算法,通过迭代检测和移除集群来实现多重集群的识别,然而,该方法在计算效率和罕见疾病集群检测的敏感性方面仍存在不足。

本研究旨在解决现有方法的三大局限:首先,现有算法不适用于罕见疾病集群的检测;其次,在数据稀疏或存在零计数的情境下,易产生误报;第三,传统特征空间方法在处理大规模时空数据时计算成本高昂。为此,我们提出了一种新型多重特征空间算法,通过引入截断奇异值分解替代标准奇异值分解,结合鲁棒Z控制图和热图可视化,显著提升了计算效率和检测准确性。该方法在线性复杂度下实现了对多重、不规则形状时空集群的高效识别,为流行病学监测和决策支持提供了可靠工具。

在方法部分,本研究以开伯尔-普赫图赫瓦省2024年伤寒病例数据为基础,构建了人口风险矩阵和病例观测矩阵,并通过计算期望病例矩阵和相对风险矩阵,为集群检测提供基础数据。算法首先对观测矩阵和期望矩阵分别应用截断奇异值分解,提取主左奇异向量和主右奇异向量,这些向量分别捕捉了空间和时间维度的主要变化模式。随后,通过计算观测矩阵与期望矩阵在空间和时间维度上的差异向量,识别潜在的异常成分。为了准确判定异常,算法采用鲁棒Z控制图对差异向量进行标准化处理,并以0.10的显著性水平作为阈值,筛选出超出控制限的异常点。当在空间和时间维度同时检测到异常成分时,算法将更新观测矩阵,将对应位置的观测值替换为期望值,同时将相对风险矩阵中的异常条目替换为中位数。这一迭代过程持续进行,直至不再检测到新的异常成分,最终通过热图可视化展示检测到的集群区域。

图1 开伯尔-普赫图赫瓦省研究区域地图,使用QGIS v3.34 Firenze生成,行政边界数据来自HDX30

该方法的创新之处在于其高效处理高维稀疏矩阵的能力。传统奇异值分解在处理大规模数据时计算负担较重,而截断奇异值分解仅保留最主要的奇异向量,显著降低了计算复杂度。此外,鲁棒Z控制图的使用增强了对异常值的识别能力,减少因数据稀疏或零计数导致的误报。算法还通过向量化操作和预分配内存进一步优化了运行效率,使得在处理35个区域和12个月份的矩阵时,计算时间从原有方法的1至3秒缩短至0.1至0.5秒,提升了5至10倍。

在结果部分,本研究将提出的新型多重特征空间算法与EigenSpot、Multi-EigenSpot、SaTScan和DBSCAN等方法进行了全面比较。应用伤寒病例数据的分析显示,新型算法成功识别出多个时空集群,其中最主要的集群出现在Bannu和Tor Ghar地区,集中在5月和10月,平均相对风险为1.767。第二集群分布于Bannu、Dir Lower、Khyber、Tank和Tor Ghar,主要在7月,平均相对风险为1.663。第三集群出现在8月,涉及Bannu、Khyber、Tank和Tor Ghar,相对风险为1.587。此外,算法还检测到第四和第五集群,分别覆盖多个地区和月份,相对风险分别为1.587和1.414。这些结果通过热图清晰展示,深红色和红色区域表示高风险集群,而相对风险为1的区域表示未检测到异常。

图2 提出算法的流程图

在性能评估方面,新型算法在精度、召回率、F1分数和鲁棒性指数上均优于其他方法。具体而言,新型算法的精度、召回率和F1分数均超过80%,而SaTScan和DBSCAN在这些指标上表现较差。在计算效率上,新型算法仅需0.1至0.5秒完成分析,而Multi-EigenSpot需1至3秒,SaTScan和DBSCAN的计算成本更高。此外,通过模拟数据缺失情境下的测试,新型算法在随机缺失和非随机缺失模式下均保持较高的F1分数和稳定性,表明其对数据缺陷的强鲁棒性。相比之下,SaTScan对缺失数据最为敏感,而EigenSpot和DBSCAN在缺失率增加时性能下降更为明显。

可视化比较进一步证实了新型算法的优势。通过QGIS生成的地图显示,EigenSpot仅能识别单一集群,Multi-EigenSpot在时间维度上产生误报,而SaTScan受限于其圆形扫描窗口,无法有效捕捉不规则形状集群。DBSCAN虽然能检测多个集群,但其结果高度依赖于参数设置,易导致集群碎片化或虚假检测。新型算法不仅在空间上精确勾勒出集群边界,还在时间维度上保持一致,更贴合伤寒在开伯尔-普赫图赫瓦省的实际分布模式。

图3 提出算法的示意图

综上所述,本研究提出的新型多重特征空间算法在时空集群检测领域实现了重要突破。通过整合截断奇异值分解、鲁棒统计控制和迭代更新机制,该方法在保持高检测敏感性的同时,显著提升了计算效率,尤其适用于罕见疾病和稀疏数据场景。然而,当前方法仍存在一定局限,例如未分析集群的传播动力学,且数据聚合可能掩盖跨区域或跨时间的连续现象。未来研究将致力于引入时空网络模型、滚动时间窗口分析和环境协变量,以进一步优化集群检测的准确性和解释性,为精准公共卫生干预提供更强有力的支持。

原始出处:

Fayyaz, M., Alamgir, Ullah, S., Ali, H., Alshammari, A. O., Kiai, Z., & Himmat, B. (2025). Novel Eigen space method for multiple Spatiotemporal rare diseases clusters detection: a case study of waterborne disease. *Scientific Reports*, 15, 37836. https://doi.org/10.1038/s41598-025-21792-y

本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。

Tags: Scientific Reports :以水媒疾病为例,新型特征空间方法在多重时空罕见疾病集群检测中的应用  

搜索
网站分类
标签列表