随着人工智能技术的快速发展,具有人工智能/机器学习(AI/ML)特征的医疗器械通过提供诊断、治疗和预后方面的医疗建议或决定,正在重塑着整个医疗保健行业。作为全球医疗监管领域的领导者,FDA正在通过人工智能计划进行多个监管科学研究,用于确保患者或使用者能获得安全有效的基于AI/ML的医疗器械。
很多正在发生的情况,比如AI/ML技术可应用于越来越多的临床领域,临床医学数据的独特性质(例如,疾病流行率低,缺乏或难以获得真实数据),随着时间推移不断发展和学习的AI/ML医疗器械,都给FDA对AI/ML医疗器械的监管带来了各种挑战。推动FDA人工智能计划的监管科学差距和挑战包括:
Ø 缺乏针对有限的标记训练和测试数据增强人工智能算法训练的方法;
Ø 缺乏分析训练和测试方法来理解、测量和最大限度地减少人工智能设备的偏差;
Ø 缺乏人工智能设备的性能评估、参考标准和不确定性指标;
Ø 缺乏评估可持续学习人工智能算法安全性和有效性的方法;
Ø 缺乏评估人工智能医疗设备新兴临床应用安全性和有效性的方法;
Ø 缺乏人工智能设备上市后监测的方法;
FDA正式执行的以下6个监管科学研究项目旨在通过开发出强大的人工智能测试方法和评估方法来填补这些知识空白,以评估人工智能在上市前和现实世界中的表现,从而合理地确保新型人工智能算法的安全性和有效性。
1
解决人工智能研发医疗数据短缺的问题
FDA正在研究用合成数据补充医疗患者数据集的可能性和局限性。具体来说医疗人工智能模型的快速开发和监管评估可以为患者提供及时准确的诊断,并减少医疗服务的差异。然而,人工智能模型的开发和评估需要涉及多种患者人群和成像条件的大型数据集。对于医疗器械开发人员而言,由于获取成本高、安全性限制、患者隐私限制或疾病患病率低等实际情况,获取具有适当注释的代表性患者数据集可能是一项繁重的工作。与收集真实的患者数据相比,合成数据(也称为计算机模拟)可以允许更安全和有效地获得标记的示例。
2
识别和测量人工智能偏倚以增加健康公平
这项监管科学研究的目标是了解和测量偏倚,并改善对AI模型可推广性的评估。在人工智能计划中,FDA将偏倚定义为与其他对象、人或群体相比,在某些对象、人或群体治疗上的系统差异. 由于算法偏倚,人工智能模型可能(通常是无意中)加剧医疗保健服务的不平等。人工智能医疗器械监管中的一个主要监管科学差距包括分析培训和测试方法的基本方法,以了解,测量和最大限度地减少偏倚,并表征亚群的性能。这与人工智能模型的可推广性和鲁棒性密切相关,其中人们感兴趣的是在自然诱导的变化(包括子群体之间的变化)下能否保持模型性能。这就需要人工智能医疗器械提供可推广和稳健输出的条件,以合理确保其安全性和有效性。
3
人工智能医疗的评估方法:性能评估和不确定度量化
这项监管科学研究旨在帮助器械开发人员、评审人员和其他利益相关者确定并使用最少负担的指标来适当评估AI医疗器械。这项工作的第一个目标是开发工具,该工具用于在评估AI器械性能时提供适当的指标。对于AI医疗器械来说,参考标准或“数据标注”通常具有很高的不确定性或可变性,这一事实加剧了这一挑战。例如,“数据标注”可能需要根据专家的主观审查来定义,这可能导致参比标准品的高度变异性。“数据标注”的这种不确定性与其他类型的不确定性,例如缺乏知识或数据,机器学习中的随机效应,都反映在AI器械的输出中。这项工作的第二个目标是开发方法和工具来量化这种不确定性,如果适用,将其在器械输出中传达给用户,并测量其对用户的影响。在这个项目中,FDA将开发用于AI算法中不确定性量化的方法和工具。准确量化不确定性并全面了解影响不确定性的因素将使审查小组和监管科学家能够评估不确定性输出的校准。这些充分验证的输出使临床医生作出更明智的临床决策,将有利于患者和公众健康。
4
模型更新的人工智能医疗器械能评估方法
这项监管科学研究的目标是开发器械模型更新的性能评估方法。
2023年3月30日,FDA器械和放射卫生中心(CDRH)发布了指南文件草案:人工智能/机器学习(AI)器械软件功能预定变更控制计划(PCCP)的入市申请建议。本指南草案旨在使器械制造商能够在入市申请文件中纳入计划,以便器械在上市时能够在受控范围内发展。这种方法可以帮助制造商更容易地对其设备进行修改和更新,同时保持FDA确保设备持续安全性和有效性的能力。虽然指南草案概述了一种合理的方法,但在含有PCCP的器械的上市前评价中,有些领域需要进一步的技术分析,以获得负担最少的上市途径。
在医疗应用中,收集精心策划、标记和代表性的数据集是困难的,因此器械申请人自然希望在使用PCCP评估其器械时重复使用其测试数据集。然而,在测试一系列AI模型更新时重复使用相同的测试数据集可能会出现问题,因为AI模型最终可能会过度拟合测试数据集。如果发生这种情况,性能评估将给出误导的,过于乐观的结果,AI模型将无法准确分析新的数据。FDA需要一种方法来安全地重复使用具有PCCP的器械的评价数据集。该领域还有一些需要解决的问题,包括参考标准潜在变更的影响,为保持适当的获益/风险特征可接受的变更程度,以及如何平衡持续学习AI模型的可塑性/稳定性。
该项监管科学研究的目标是通过以下方式解决问题:
开发统计方法和理论结果,以及进行实证实验和研究。
发布可用于设计研究的监管科学工具,这些研究将根据上市后保证计划持续测量不断发展的算法的性能。
5
用于改善和自动化医疗事件的新型人工智能的监管评估
CDRH对许多类型的人工智能器械有明确的监管方法,但新的临床适应症或新类型的AI需要新的评估范式(非临床和临床测试)来确定安全性和有效性。与旨在帮助临床医生提高诊断准确性的模型相比,用于排除和分类的AI模型具有不同的实际应用和监管意义。尽管目前市场上大多数AI器械都是诊断型的,但设计用于预后、治疗反应预测、风险评估、治疗、改进图像采集和多级分类的新器械需要不同的评估指标和参考标准。
在医疗器械的开发或操作中使用自然语言处理和大型语言模型,给器械评估带来了新的问题。结合多种类型数据源(例如,来自放射学、生理学、病理学、患者人口统计学和电子健康记录的数据)的新型人工智能需要研究有关数据协调和缺失的问题。
6
人工智能医疗器械上市后的有效监测方法
这项监管科学研究的目标是开发方法和实用工具,以检测AI医疗器械输入的变化,监测其输出的性能,并了解性能变化的原因。
人工智能模型高度依赖数据。数据采集系统、方案和患者人群随时间和临床地点而变化。此外,模型开发期间未遇到的数据可能会导致意外输出。因此,AI模型的临床效用可能会在其开发阶段和实际临床使用之间发生变化。这些差异可能会影响人工智能医疗设备的安全性和有效性。
通过监测和审计人工智能医疗设备的数据和输出检测人工智能医疗器械输入变化、监测其输出性能并了解性能变化原因的工具,来提供质量保证,并使用多个临床站点的患者数据进行评估。这些工具将使器械用户受益。此外,这一努力将实现动态的创新周期,从而实现持续改进。
随着越来越多具有人工智能/机器学习(AI/ML)特征的医疗器械具备了网络属性,由此带来的网络安全风险也受到了各国监管部门的的广泛关注。海河生物前瞻性的打造了网络安全实验室,该实验室不仅拥有基于FDA共识标准“UL 2900”进行测试的ANAB资质,而且能够出具权威、公正的第三方检测报告,可为企业提供源代码安全审核、威胁建模、漏洞扫描、渗透测试、模糊测试以及网络安全能力验证等服务。目前,海河生物旗下的咨询团队携手海河网络安全实验室已协助多家中国企业完成了其AI医疗软件在美国食品药品监督管理局(FDA)的注册,海河生物咨询团队深耕医药行业近20年,精通多国法规要求,可为医疗企业提供从战略规划到市场推广的全方位咨询服务,为我国多款医疗器械首次获得美国FDA注册及CE认证提供咨询辅导。未来,海河生物将持续深耕医疗器械产品赋能领域,与更多中国医疗器械企业并肩携手,从容应对 FDA 等监管机构对医疗器械设备愈发严苛的要求,助力攻克各类挑战!
海河生物是一家专业为医疗器械和药品相关的研究机构、研发和生产企业以及相关监管部门提供产品全生命周期服务的平台性公司,在生物医药CRO领域具有极高的行业地位。海河生物旗下业务涵盖产品全生命周期服务、服务型制造、智能制造和第三方检测认证,与我国“十四五规划”高度契合。
致力于向医疗器械、药品、化妆品和消毒产品领域提供专业独立的第三方检测服务,已取得国家级CMA检验检测资质认定,中国CNAS、美国ANAB实验室能力认可,美国 FDA GLP和OECD GLP实验室认可以及国际实验动物评估和认可委员会AAALAC认证,真正做到了一次测试全球通用。
深耕于生物医药行业,熟悉中外各国的法规要求,尤其擅长中国NMPA注册和备案、美国FDA申请、欧盟CE认证、巴西ANVISA和加拿大卫生部的产品注册,可根据客户的市场开发方案和产品特点,量身定制全球市场准入战略规划,提早实现产品上市销售。
建设有无源耗材、有源设备和体外诊断试剂三条生产线,提供科研成果到最终成品委托开发和加工生产的完整解决方案。
为药品、医疗器械(尤其是体外诊断试剂)产品提供符合中国、美国和欧盟市场准入的临床方法验证确认及检测服务。