中医问答网 中医问答网

当前位置: 首页 » 健康知识 »

人工智能在医疗中的机遇与挑战:为何我们需要更严格的测试标准?

在医疗行业,人工智能的进步引发了广泛的关注与期待。尤其是OpenAI最新发布的HealthBench以及谷歌的MedPalm2和AIME等研究成果,似乎让我们看到了AI医生即将为全球患者服务的美好前景。然而,尽管这些技术进展令人兴奋,但它们在临床应用的准备程度上仍显不足。

在医疗领域,AI的应用风险极高。当患者面临紧急健康问题时,例如婴儿呼吸困难或老人中风症状,所获得的建议必须是绝对安全和准确的。然而,目前测试AI临床准备度的方法常常存在不足和循环性的问题。

这些“突破性”研究通常面临几个关键限制:

  • 它们在人工或模拟患者案例上测试AI表现,而非真实患者的互动。
  • 评估响应时使用自动化的AI评估,而非人类专家的评估。
  • 缺乏对临床AI互动后患者结果的适当评估。

以HealthBench为例,该项目使用5000个手工制作的场景来测试AI临床代理。虽然这在测试场景的覆盖范围上有所进展,但这些人工场景很可能无法捕捉到真实患者表现的复杂性。此外,当公司自行创建测试场景时,很难验证这些案例是否真实代表了医学情况的全貌,或是否无意中偏向了其模型的能力。

更根本的是,像HealthBench这样的基准测试往往使用AI来评估其他AI响应的临床适宜性。这种循环逻辑令人堪忧:我们在验证AI的临床使用适应性时,实际上是在信任其评估能力,而这一点尚未在高风险环境中得到证明。在这个阶段,只有人类专家的评估才能为临床表现提供适当的真实依据。因此,我们必须问:领先的AI开发者是否在这一关键评估过程中应用了必要的严谨性?

任何临床工具的最终测试在于其对患者结果的影响。这需要严格的临床试验,跟踪患者在使用该工具后的康复和健康结果。当前对临床AI代理的处理方式,类似于仅凭计算模型的分子相互作用就声称新药安全,而没有进行全面的临床试验。正如药物开发需要严格的人体测试以证明实际的安全性和有效性,临床使用的AI也需要远超AI驱动的模拟。

为了安全部署临床AI代理,我们需要显著改善测试框架,这可能需要比领先AI实验室预期的更多时间和努力。

为了真正保护患者并建立信任,我们必须从根本上提高AI测试标准,具体包括:

  • 真实用户互动:使用来自实际用户的真实临床表现来测试模型。
  • 专家人类评估:由合格的临床医生评估AI响应的质量、安全性和适宜性。
  • 影响评估:进行实验性、随机的研究,以评估AI互动对用户理解、决策和健康的实际影响。

然而,医疗领域中也有一些参与者非常重视临床AI的严格测试,并取得了实质性进展。政府机构如美国食品药品监督管理局(FDA)以及美国和英国的AI安全机构,正在制定如何测试AI在临床应用中安全性的指南。例如,FDA的指南在测试AI的临床适应性方面的建议,与大型领先实验室所声称的标准截然不同。同时,美国和英国的AI安全机构及应用临床AI公司正在努力通过创建更合适的基准来提高临床AI测试的有效性,并理解大型语言模型在医疗用途上对用户健康的真实影响。

人工智能仍处于初期阶段,只有通过严格的真实世界测试,临床AI才能负责任地成熟。与药物和治疗的发展、医疗设备及其他临床影响选项一样,AI在被允许在临床环境中独立使用之前,必须经过彻底的测试。

这是发展真正安全、有效和有益于患者护理的AI模型的唯一途径,超越由技术人员创建的理论基准,转向由临床医生提供的经过验证的临床实用性。

注:本文内容仅供科普参考,不构成专业医疗建议,如有健康问题请咨询专业医生。

未经允许不得转载: 中医问答网 » 人工智能在医疗中的机遇与挑战:为何我们需要更严格的测试标准?