微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

微软首席执行官Satya Nadella在社交平台分享了，微软最新发布的突破性医疗AI系统MAI-DxO。

MAI-DxO最大技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并普遍提升它们的诊断性能。并且能模拟真实医生的诊断流程，比专业医生的准确率更高。

根据微软公布的测试数据显示，在与21名拥有超过10年从医经验的专业医生的测试对比中，人类医生在《新英格兰医学杂志》的56例隐藏测试集上的平均准确率仅为19.9%。

而MAI-DxO在无预算配置的情况下，使用OpenAI的o3模型时准确率高达81.9%，使用集成模式下高达85.5%，比专业医生准4倍以上，成本方面也大幅度下降。

此外，微软还发布了一个专业的医疗序贯诊断基准SDBench。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

医学诊断是一个需要医生通过不断收集患者信息、提出假设、验证假设并逐步细化诊断范围的复杂序贯过程。

在临床实践中，医生们需要根据患者初步的症状和体征，提出一系列针对性的问题，进一步了解患者的病史、生活习惯、家族病史等信息，同时结合各种实验室检查和影像学检查的结果，逐步缩小可能的疾病范围，最终确定准确的诊断。

而MAI-DxO主要通过模拟一组具有不同角色的虚拟医生来共同解决诊断问题，从而在诊断准确性和成本效益方面取得显著的突破。

MAI-DxO简单介绍

MAI-DxO框架的核心思想是借鉴真实医疗团队中的协作模式，让不同的“医生”发挥各自的专业优势，共同为诊断过程提供支持，同时通过精心设计的协调机制来避免个体认知偏差和过度检查等问题。

首先，Dr. Hypothesis负责维护一个按概率排序的鉴别诊断列表，列出最有可能的三种疾病，并在每次获得新的发现后，以贝叶斯方式更新这些疾病的概率。确保了诊断过程中始终有一个清晰的诊断方向，并能够根据新信息及时调整诊断假设，从而为后续的检查选择和诊断决策提供依据。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

Dr. Test-Chooser在每一轮中选择最多三个能够最大程度区分领先诊断假设的诊断检查。通过精心挑选检查项目，旨在以最小的信息成本获取最有价值的诊断线索，从而提高诊断效率，减少不必要的检查费用。这一角色的存在，使得整个诊断过程更加注重检查的针对性和成本效益。

Dr. Challenger则是监督员身份，负责识别可能存在的锚定偏差，指出与当前领先诊断相矛盾的证据，并提出能够证伪当前领先诊断的检查建议。这种挑战性的思维方式有助于打破诊断过程中的思维定式，促使团队从多个角度审视诊断假设，避免因过早确定某一诊断而忽视其他可能性。

Dr. Stewardship致力于推行成本意识的医疗服务，会倡导在诊断上等效但更便宜的检查替代方案，并否决那些收益低且昂贵的检查。通过这种方式，Dr. Stewardship确保了整个诊断过程在追求准确诊断的同时，能够有效控制成本，避免资源的浪费。使得整个诊断过程更加符合实际医疗环境中的成本效益原则。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

Dr. Checklist负责在幕后进行质量控制，确保模型生成的检查名称有效，并保持整个团队推理过程中的内部一致性。这一角色的存在有助于减少因人为错误或逻辑不一致而导致的诊断失误，保障了整个诊断系统的稳定性和可靠性。

为了评估MAI-DxO的性能，微软将其与专业人类医生进行了综合对比。在诊断准确性这一关键指标时，在参与测试的21名医生中，他们的平均诊断准确率仅为19.9%；

在不同的配置下，MAI-DxO均展现出了远高于人类医生的诊断准确率。例如，在无预算配置下，MAI-DxO的诊断准确率达到了81.9%，而其集成配置更是将准确率提升至85.5%。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

在成本效益方面，人类医生在测试中平均每个案例的成本为2963美元。他们平均每个案例花费11.8分钟，提出6.6个问题并请求7.2项检查。相比之下，MAI-DxO在控制成本方面表现得更为出色。例如，无预算配置的平均检查成本为4735美元，而预算内配置的成本进一步降低至2396美元，同时仍保持较高的诊断准确率。

MAI-DxO五大集成模式

为了使MAI-DxO适配不同的医疗场景，来控制成本、诊断效率、准确性等，MAI-DxO提供了五种集成模式。

Instant Answer 模式，该模式完全依赖初始病例摘要进行诊断，不进行任何后续的提问或检查操作。这种模式的设计灵感来源于临床中对紧急情况的快速响应需求，例如在资源极度匮乏的偏远地区或急诊场景下，医生需要基于有限信息迅速做出初步判断。尽管其诊断准确性相对较低，但能够在最短时间内提供一个基于模型知识的初步诊断方向，为后续的进一步诊疗提供基础。

在技术实现上，该模式直接调用语言模型对初始信息进行处理，通过优化提示词结构来最大化利用有限信息中的诊断线索，其优势在于诊断速度极快且成本几乎为零，但缺点是无法处理复杂病例，适用于对时间要求极高而对准确性要求相对较低的特殊场景。

Question Only 模式则将诊断手段严格限制在提问范围内，不允许订购任何诊断检查，成本仅包含一次医生问诊的固定费用。这种模式模拟了初级诊疗场景中医生通过详细询问病史来获取诊断信息的过程，强调病史采集在诊断中的基础作用。

在技术层面，该模式通过构建层次化的提问策略来逐步深入挖掘患者信息，首先从一般情况和主诉相关问题入手，然后根据回答逐步细化到具体的症状特征、既往史、家族史等方面。其优势在于成本低廉且对患者无创伤，适合作为初步筛查手段，但在面对需要客观检查证据的疾病时诊断能力会受到限制。该模式的设计理念是充分发挥语言模型的对话理解能力，通过优化提问序列来最大化从患者叙述中获取的诊断信息量，在基层医疗和健康咨询等场景中具有重要的应用价值。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

Budgeted模式引入了动态预算控制机制，通过一个独立协调的语言模型调用实现对累计诊断成本的实时跟踪。该模式允许团队在看到每项检查的预估成本后决定是否取消该检查，从而在诊断过程中实现对成本的主动管理。

技术实现上，该模式首先通过自然语言处理技术将检查请求转换为标准化的 CPT 代码，然后基于预先构建的成本数据库进行实时估算。当累计成本接近预设预算时，系统会触发成本预警机制，促使 Dr. Stewardship 角色更严格地评估每项检查的性价比。

No Budget 模式则是MAI-DxO 的完整形态，不设置明确的成本跟踪或预算限制，允许诊断团队以最大化诊断准确性为目标进行决策。该模式充分发挥了虚拟医生团队的协作优势，通过 Dr. Hypothesis 的贝叶斯推理、Dr. Test-Chooser 的信息价值评估、Dr. Challenger 的偏差检测等机制，实现对复杂病例的深度诊断。

在技术实现上，该模式通过强化学习算法优化各角色之间的协作流程，不断调整诊断策略以提高准确性。其优势在于能够处理最复杂的疑难病例，实现最高的诊断准确性，但可能会产生相对较高的诊断成本。该模式适用于对诊断准确性要求极高的场景，例如，三甲医院的专科会诊或罕见病诊断中心，为复杂病例提供了一个不受成本限制的精细化诊断方案。

Ensemble模式则通过模拟多个医生团队并行工作来进一步提升诊断准确性，每个团队独立运行 No Budget 模式，最后通过一个额外的集成面板进行诊断结果的聚合。该模式的技术核心在于构建多样化的诊断团队，每个团队可能采用不同的基础模型或参数配置，从而产生具有差异性的诊断思路。在结果聚合阶段，系统不仅考虑各团队诊断结果的一致性，还会评估每个诊断的支持证据强度和推理过程的合理性。通过这种方式，Ensemble 模式能够有效降低单一团队可能出现的偏差和错误，实现诊断准确性的进一步提升。

序贯诊断基准SDBench

SDBench是微软AI团队精心打造的一个交互式评估框架，将《新英格兰医学杂志》临床病理会议（CPC）系列中的304个具有挑战性的诊断案例转化为逐步诊断的交互式场景。这些案例涵盖了从常见疾病到罕见疾病的多样化临床表现，为评估诊断主体（无论是人类医生还是AI）的序贯诊断能力提供了丰富而真实的素材。

在SDBench中，诊断过程从一个简短的病例摘要开始，例如“一位29岁的女性因咽喉疼痛、扁桃体周围肿胀和出血入院，症状未因抗菌治疗而缓解”。

诊断主体需要根据这个初步信息，决定接下来要询问患者哪些问题、要求进行哪些检查，或者是否已经准备好做出最终诊断。这个过程是迭代进行的，每次诊断主体提出请求后，都会由一个名为“守门人”的智能体模型来响应。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

守门人模型是一个经过特殊设计的语言模型，拥有完整的病例文件，包括最终诊断，但只会根据诊断主体的明确查询提供相应的临床发现信息，如果查询过于模糊或不具体，会礼貌地拒绝回答。这种设计模拟了真实临床场景中医生获取患者信息的过程，确保了诊断主体必须通过合理、有针对性的提问和检查请求来逐步揭开病例的全貌。

为了进一步增强评估的真实性，SDBench还引入了一个“法官”智能体来评估诊断的准确性。由于不同医生可能使用不同的术语来描述相同的疾病，但其临床处理方式可能完全一致，因此法官智能体不会仅仅根据字面描述来评判诊断的正确与否，而是会从核心疾病实体、病因、解剖部位、特异性等多个维度进行综合评估。

Loaded: 100.00%

Current Time 1:24

Duration 2:56

自动播放

例如，对于一个“细菌性心内膜炎”的诊断，即使诊断主体使用的是“由金黄色葡萄球菌引起的感染性心内膜炎”这样的更具体描述，只要其核心诊断与真实情况相符，法官智能体就会将其视为正确的诊断。这种基于临床实质的评估方式能够更准确地反映诊断主体的实际诊断能力，避免了因术语差异而导致的误判。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

除了诊断准确性，SDBench还将诊断过程中产生的成本作为一个重要的评估指标。在现实的临床实践中，医生在选择检查手段时需要考虑其成本效益，不能随意地进行昂贵的检查。

因此，SDBench为每次诊断主体与患者之间的互动设定了一个固定成本，对于诊断检查的请求，则通过一个基于语言模型的查找系统将其转换为标准化的现行程序术语代码，并根据美国一个大型卫生系统的2023年定价表来确定相应的成本。这种成本评估方式不仅能够促使诊断主体在诊断过程中更加注重成本控制，还能为不同诊断主体之间的成本效益比较提供一个标准化的参考。

微软发布MAI-DxO，技术创新在于其模型无关的设计，使其能够适配不同厂商、不同能力的语言模型，并提升它们的诊断性能

原创文化更多>>