国内首次AI 医生一致性评测 评审专家称“超出预期”
评测人员名单
在历经8个小时的问诊过程中,MedGPT 与来自四川大学华西医院的心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科的10位主治及以上医师共同对100余名患者进行问诊,经过专家评审团,从准确性、客观数据分析、可信度、人机交互性展开。最终,经过长达3个小时的对比分析及判断,综合专家团所有评审的判定及评分,AI医生与三甲主治医生在比分结果上的一致性达到了96%。
一致性研究评测规则
评审流程
为了保证评测的合理性和科学性,此次测试的问诊环节进行了特殊的设计:患者进入诊室后,将与医助沟通自身病情,医助通过线上文字输入的方式将患者主诉传达给真人医生与AI医生病协助医患完成多轮沟通,在收集足够的决策因子后,真人医生与 AI 医生为患者开具检查单或诊断,患者直接在成都高新海尔森医院完成检查;在获得检查结果后,患者进行复诊,并由AI医生及真人医生提供临床诊断及治疗方案。通过以上流程,可以在条件基本一致的情况下,让真人医生与AI医生进行互不干涉的独立诊断。
在当晚的评审环节,现场专家对于AI医生的表现给予高度肯定,在场评审团专家普遍认为,MedGPT而是通过多轮询问收集足够信息,以确保医疗准确性为前提推进问诊流程,所以出现误诊、漏诊的概率就比较小。令人惊喜的一点是,不同于专科医生,MedGPT诊断出了不属于就诊科室的疾病,给出其他具备可能性的判断,这在常规的专科问诊中是很难做到的。专家评审团认为,它的知识覆盖面是超过一些经验并不是很充足的真人医生的。
北大人民医院主任医师薛峰在评审过程中发现了一个“惊喜”:MedGPT 根据患者脚底板疼痛诊断出有患者有可能出现神经压迫,真人医生却没有想到这一点。薛峰认为,MedGPT应该是一个非常有发展前景的一项技术,在病人遇到一些症状,有困扰的时候,跟他去聊一聊,让它给一个初步的诊断,还是非常有帮助的,具备非常好的前景。中日友好医院心内科主任医师任景怡表示:我觉得最好的一点,当诊断尚不明确时,MedGPT并不会轻易给出结论,而是要坚持要通过继续问诊或检查收集更多信息。尽管 MedGPT 还存在一些问题,但迈出了重要的一步,这是里程碑式的结果。
专家评审维度
云化能力结合 AI 医生“手段”更加丰富
值得一提的是,MedGPT不仅在一致性上达到了一定水准,还可以提供疾病治疗环节中的其他“手段”,例如此次诊断过程中的“云检验”:在完成初步问诊后,MedGPT会给患者开具必要的医学检查项目,以进一步明确病情。患者则可以通过医联云检验等多模态能力进行检查。基于有效问诊以及医学检查数据,MedGPT得以进行准确的疾病诊断,并为患者设计后续疾病治疗方案。对于真人医生来说,开具检验并根据结果对病情进行判断是疾病诊断过程中的常规操作,但对于AI 医生来说,这是一则突破。
真人医生(左)与AI 医生(右)为患者开具检验检查并进行解读
在此次问诊现场,MedGPT就为患者开具了多种检验检测,患者在凭借单据直接在成都高新海尔森医院完成相关检测。医联MedGPT项目负责人王磊表示:MedGPT 开单检查只是多模态能力的其中一环,MedGPT 后续将配合医联多种云化能力,覆盖预防、诊断、治疗、康复的疾病管理全流程,让患者轻松接触到优质医疗资源。未来,MedGPT 会拥有更大的想象空间。
事实上,医联在今年5月已经公布了 MedGPT多种医学检验检测模态能力。除了配合云化能力进行检验检测外,MedGPT会在患者收到药品后主动为患者进行用药指导与管理、智能随访复诊、康复指导等智能化疾病诊疗动作。医联MedGPT plugin 应用平台整合超过 1000+医疗多模态能力,整合多样化的医疗多模态能力,丰富和完善全流程智能化诊疗体验。
一次阶段性探索 一次 AI 应用发展的推进
现阶段,医疗行业还存在着资源分配不均,边缘地区患者难以接触到优质医疗资源等痛点,而AI医疗可以有效补充医疗资源,助力全民健康生活水平的提升,有利于补全基层诊疗服务短板,强化公共卫生服务效率,帮助解决优质医疗资源相对匮乏和基层医疗服务能力不足的结构性难题。
此次测试是国内首次公开的、规模化的、基于真实患者的AI医生与真人医生的一致性研究评测,也是对于AI 医疗的一次阶段性探索。经过此次评测,以 MedGPT为首的 AI 医疗已经现阶段进入到了真实患者测试阶段,这也意味着通用型人工智能技术的研究与应用发展水平得到了进一步推进。王磊表示:“此次测评,本质是为了持续验证与提升AI模型的医学有效性。医联希望通过 MedGPT 在疾病管理全流程上的能力,让智能化的医疗手段帮助更多患者,令各地医疗资源的不均等逐渐消弭。”推动AI在医疗行业的研究与应用,以严肃医疗为根本,让优势的医疗资源与技术惠及更多人,是医联不断向前的动力。医联也将在AI医疗领域持续耕耘,加速 AI 在医疗行业内的落地应用,力争贯彻让全人类健康寿命延长一年”的使命。
另附评审专家意见及具体评分:
王磊:“MedGPT 不会漏掉患者提供的重要信息,询问病史非常全面,避免出现漏诊的情况。知识面也比较丰富,会给患者解答其他科室的问题。但缺乏临床医生的察言观色,无法为病人提供情绪上的照顾。此外就是数据准确性上需要提升。”
任景怡教授:“我可能是唯一一个给MedGPT打分超过真人医生的,尽管MedGPT还有很多的问题,但我觉得迈出了这一步,算是里程碑的结果。MedGPT它可能有更完善的知识储备,它可以关注到全科的情况。它在诊断不明的时候一直坚持没有给患者以治疗手段,这点我认为值得鼓励,在诊断不明的时候,随便给出治疗手段会犯更大的错误,坚持很重要。有时候 MedGPT 会给出过度治疗的建议,这点需要调整。”
刘国梁教授:“MedGPT在包括药物过敏预警、处方开具等安全性方面做得好,能够弥补人的不足。但开检查的时候会存在重复推荐的情况。MedGPT可以提前筛选一些患者和提示真人医生没有问到的地方,大大提高诊疗效率,这是我觉得非常重要的一个发展方向。”
杨跃进教授:“问诊比较详细,它对于每个细节都很注重,作为临床医生的补充是非常有帮助的。但详细有时候意味着重点不突出,有些问题,就需要一查到底,未来还需要继续凝练。”
宗晔教授:“我给真人医生打分较高,我认为真人医生还是能够抓住重点的,而对MedGPT我要求的还是要更高一些。MedGPT会围绕这个核心的症状,包括诱因、伴随症状,包括胃里面报警症状进行问诊,比较详细。缺点是有些检查选择的比较,这部分还是要加强基础储备。”
蔡美顺教授:“从病史和检查方面做的都比较全面,但是某些概念的表述准确性上需要优化。总体来说,人工智能还是对我们以后的工作有帮助。”
薛峰:“超出预期,问诊很详细,可以不知疲倦的和患者耐心沟通,在常见病领域还能起到对患者科普的作用;但是现阶段的AI医生无法实现查体,未来在医学多模态能力上还有突破才有更大的应用价值。”