为什么 AI 笔记工具应当像你本人——以及它实际是如何做到的
来自我们一位早期试点医生的笔记,经其许可后编辑发表。——ActiveScribe 团队
每一位试用过两个以上 AI 临床助手的医生都注意到了同一件事:所有的笔记听起来都一样。一样的标题,一样含混的措辞,一样平板的"机构口吻"。你可以读三家不同厂商的三份笔记,却分不出哪一份是哪一份。它们没有一份听起来像你真正写东西时的样子。
这件事的意义比人们意识到的要大。一份临床笔记不仅仅是一份记录——它还是一种沟通:与未来的你自己沟通,与会诊的同事沟通,与多年后可能读到它的医疗法律体系沟通。如果一份笔记听起来不像是你写的,你就不会信任它;不信任它,你就会重写它;那么 AI 就什么都没有为你节省。
我想用通俗的语言解释——从一个不是工程师的角度——一个好的 AI 临床助手是如何贴合你的语气的,而又不必去做每一位医生都理所当然地害怕的那件事:在患者数据上训练模型。
错误的方法:在你的患者数据上做微调
大多数人听到"个性化 AI"时首先想到的就是微调(fine-tuning)。你给 AI 一千份你过去的笔记,它调整自己的权重,从此就能像你那样写。这是大多数消费级 AI 个性化背后的技术,而它恰恰是对医疗保健而言完全错误的技术。
微调意味着你患者的话语成为了模型的一部分。即便这个模型不被分享,即便训练数据是加密的,你也越过了一条线:一个从受保护健康信息中学习的系统,与一个不学习的系统,在法律和伦理上都是根本不同的。它也很难逆转。如果一位患者要求你删除他的记录,而这次删除必须传播到一个不透明的、已经训练好的模型里,会发生什么?你不会想成为那个向隐私专员解释的人。
正确的方法:示例、词典与运行时上下文
ActiveScribe 采用的是另一种方法。它不会在你的数据上进行微调。相反,系统使用了三层上下文,这些上下文会在生成笔记的那一刻被注入:
第一层是风格。入驻时,你上传少量你过去的笔记——经过去标识化、抹去患者识别信息——作为示例。系统从这些示例中提取你的风格:你使用缩写的密度、你组织小节标题的方式、你倾向简洁还是详细、你如何对不确定性进行表述。这在技术文献里被称为基于示例的提示(exemplar-based prompting),它和微调是完全不同的技术。你的示例是在它为你写笔记的那一刻被展示给模型的,而不是被烘焙进模型的权重里。
第二层是你的专科。一份精神科笔记和一份急诊室笔记、一份儿科健康婴儿就诊笔记的要求是不同的。ActiveScribe 维护了一组专科特定的规则——应包含哪些小节、绝不能省略什么、哪些时间戳最重要——并把它们叠加在你的风格之上。这意味着一位儿科医生的笔记既遵循儿科惯例,又依然听起来像那位特定的儿科医生。
第三层是不可协商的安全约束。无论你的风格说什么,无论你从事的是哪一专科,有些规则都不能被覆盖:不可有臆造的症状、不可有用药错误、不可有捏造的病史。这些规则位于提示堆栈的最顶层,而一组单独的验证器会在你看到这份生成的笔记之前,对照这些规则进行检查。
为什么这套架构对"信任"很重要
这种方法能给你几样微调给不了的东西。
你可以改变主意。如果你明天决定希望自己的笔记更简洁,你换掉示例,系统在下一次就诊时就会适应。无须重新训练,无须等待,无须管理模型版本。你的风格是配置,不是代码。
你的患者并不在模型里。一个在你的患者数据上训练过的模型,已经被这些患者永久改变。一个使用运行时上下文的模型,对每一个人来说都是同一个模型——你的个性化发生在提示里,而不是权重里。当一位患者要求删除他的数据时,这次删除是真实的,而不只是说说而已。
错误是可被检视的。如果某份生成的笔记有问题,团队可以查看产生它的那一份精确提示——你的风格层、你的专科层、安全层、转录稿本身。把这与调试一个微调模型相比,那更接近于调试一段记忆,而不是调试一段程序。当一个临床 AI 工具出问题时,"我们也不太清楚为什么"不是一个可以接受的回答。
它与监管机构的思考方式相容。医疗数据监管机构仍在摸索如何监管医疗保健中的 AI,但共识正在围绕一个核心原则形成:临床 AI 应当是可审计的、可删除的、不带隐藏状态的。一个"示例加上下文"的架构同时满足这三点。一个微调出来的模型则一项也不满足。
这在实际中意味着什么
当我坐下来审阅 ActiveScribe 生成的笔记时,它读起来就像是我会写出的笔记。不是某个泛泛的、AI 版本的我——而是我。我用的缩写。我每次都会包含的小节。我在第一百次描述儿童病毒感染时默认使用的措辞。系统并不是在假装是我;它是在这一刻,在它为我写笔记时,反映我曾向它展示过的、我写东西的方式。当我改变了写作方式,系统也会随我改变。当我删除一位患者,那位患者就真的没了。
我对技术并不感伤。我是一位繁忙诊所里的执业医生。但当我考虑哪些 AI 工具我希望能靠近我的患者时,我问的问题不是"哪一个最准确"——而是"哪一个我可以信任它在我能理解的方式上出错"。基于示例的 AI 是和微调过的 AI 在根本上不同的一种押注,对医疗保健而言,它是正确的那一种。