eICU数据集是MLH第一个大规模、多机构的电子健康记录数据集之一;研究人员已经在分析如何使用此资源生成可归纳的模型。然而,目前的努力是有限的,健康数据提供者应该进行更多的合作以提高可重复性。
科学研究需要可重复性,然而许多科学领域最近都发生了重复性危机,削弱了公众对研究结果的信任,并导致论文撤回率增加。可重复性对于机器学习研究也很重要,机器学习类研究的目标是开发算法,在有限甚至无人工监督的情况下,可靠地解决大规模复杂任务。
如果机器学习系统不能始终如一地重复预期行为,可能会产生不幸的后果。这些风险在人工智能(artificial intelligence, AI)和应用于健康的机器学习(machine learning applied to health, MLH)中尤其高,因为在这些领域的算法可以直接影响人类医疗保健。随着越来越多的AI医疗健康工具应用于临床实践,确保AI工具的可重复性,符合公众利益。MLH领域目前尚缺乏深度学习系统的随机对照试验,MLH应用中的可重复性充满挑战。
可重复性标准
机器学习中关于可重复性的一般理解可以概括为:技术可重复性,主要关注是否能够在相同的技术条件下准确地重复结果。虽然很直观,但技术可重复性实际上只是可重复性目标的一小部分。过去,在自然科学和社会科学中可重复性这一名词的使用更为普遍,因为在不同实验室、使用不同设备进行重复性研究经常发生。在MLH背景下,如果一项研究完全可重复,它必须满足三个标准:
①技术可重复性——结果是否可以在技术相同的条件下重复?指一个结果在技术上完全被复制的能力。这涉及到与代码和数据集相关的重复性。
②统计可重复性——在完全相同的统计条件下,结果能否重复?指在重新采样下维持原有结果的能力,重新采样可能使结果出现轻微变化,但在统计学上没有影响。例如,如果算法多次在数据集上进行训练,那么所报告的结果在统计上应该是等效的。
③概念可重复性——结果是否可以在概念相同的条件下重复?
MLH不同于一般的机器学习领域,如自然语言处理和计算机视觉,有其独特的挑战。MLH在各种可重复性指标上均落后于机器学习的其他子领域。
技术可重复性
MLH在技术可重复性方面面临几个关键挑战。首先,健康数据对隐私敏感,因此很难公开发布。因此,很少有公共数据集可用,而且那些可用的数据集使用得非常频繁,导致数据集特定的过度拟合风险。到目前为止, MLH研究中只有约55%使用公共数据集。相比之下,计算机视觉和自然语言处理论文中有90%以上使用公共数据集,而一般机器学习论文中有约85%使用公共数据集。
MLH只有约21%公开发布代码,而计算机视觉和自然语言处理方面的论文中这一比例分别为约39%和约48%。不过,代码发布本身并不一定足以实现完全的技术可重复性,因为即使发布代码也可能无法正确运行。
统计可重复性
虽然MLH的统计可重复性相对较低(约44%),但高于计算机视觉、自然语言处理或一般机器学习的论文(分别约21%、32%和37%)。尽管这是一个令人鼓舞的迹象,但仍有改进的余地。
概念可重复性
阻碍MLH研究结果可重复性的关键问题,是缺乏医疗保健方面的多机构数据集,并且对现有数据集的使用有限。80%的计算机视觉研究和58%的自然语言处理研究使用了多个数据集来建立他们的结果,然而,只有23%的MLH研究这样做。只使用一个医疗数据集是不可取的,因为开发机器学习模型,试图概括不断变化的医疗实践或医疗数据格式是具有挑战性的。研究人员预期,随着医疗模式的发展,机器学习模型在健康领域的表现会随着时间的推移而退化。因为健康数据充满了隐藏的混杂因素,数据收集存在显著差异,随着时间推移而漂移,不同医疗机构在数据结构上也有很大不同。
改进的机会
以下是一些切实可行的建议,以提高MLH研究的可重复性。
创建共享的研究资源
医院、临床研究中心和政府机构,有大量有价值的健康数据,他们是健康数据的提供者。然而,很少有健康数据集可供研究人员使用。这是可以理解的,因为很难确保临床数据的安全恰当发布、专有健康数据具有其高价值,以及跨平台组建数据集的困难。然而,更多的共享资源将有助于MLH领域的可重复性研究。医疗机构可以匿名地汇集健康数据供研究人员使用,并从中创建算法。例如,重症监护医疗信息集市(medical information mart for intensive care, MIMIC)、英国和日本的国家生物库和eICU合作研究数据库,这些都是大型数据库的实例。
整合多机构数据集
来自多个护理中心或潜在人群的健康数据,可聚合成多机构数据集,能够评估算法转换到新环境的能力,这是MLH研究中一个关键。随着eICU数据集发布,最近在这方面取得了很大进展,eICU数据集是MLH第一个大规模、多机构的电子健康记录数据集之一;研究人员已经在分析如何使用此资源生成可归纳的模型。然而,目前的努力是有限的,健康数据提供者应该进行更多的合作以提高可重复性。
前瞻性收集数据
收集健康数据然后用于研究,可能会带来严重的隐私风险,并包含许多混淆变量。如果直接从同意的参与者那里前瞻性地收集健康数据,隐私风险就会得以改变。此外,还应考虑使用直接同意的健康数据,患者可以下载他们的数据并将其直接授权给研究项目。
采用严格的统计方法
坚持高标准的统计严谨性,将有助于缓解数据拟合过度的问题。
开发新的隐私保护技术
技术解决方案将有助于减轻隐私问题,使MLH研究人员能够探索嘈杂、或加密的数据集。
预注册备选方案
在生物医学科学中,研究要经过严格的审查,以确保它们不易受到统计假像的影响。越来越多的研究需要预先注册,这意味着他们必须在开展实验之前报告研究目标和分析计划,以避免有意或无意的统计错误。事实上,几乎所有的MLH研究都是观察性研究,到目前为止,MLH研究中还没有前瞻性审查机制。
建立报告和代码发布要求
会议和期刊方应要求发布数据和代码,或在发布前提供关于附加数据和代码可用性的声明。尽管代码发布可能很困难,尤其是在知识产权限制的情况下,但解决这些问题对于提高该领域的可重复性至关重要。
制定数据和报告标准
在制定数据标准和报告标准方面的合作努力是提高可重复性的另一个途径。医疗保健分析组织已经制定了数据标准,如观察医疗结果伙伴关系标准(Observational Medical Outcomes Partnership standard )和快速医疗保健互操作性资源标准(Fast Healthcare Interoperability Resources standard),但这些标准在MLH研究中并未普遍采用。
参考文献:Matthew B. A. McDermott, Shirly Wang, Nikki Marinsek, et al. Reproducibility in machine learning for health research: Still a ways to go[J]. Science Translational Medicine,2021,13: eabb1655.