为什么 AI 笔记工具应当像你本人——以及它实际是如何做到的

来自我们一位早期试点医生的笔记，经其许可后编辑发表。——ActiveScribe 团队

每一位试用过两个以上 AI 临床助手的医生都注意到了同一件事：所有的笔记听起来都一样。一样的标题，一样含混的措辞，一样平板的"机构口吻"。你可以读三家不同厂商的三份笔记，却分不出哪一份是哪一份。它们没有一份听起来像你真正写东西时的样子。

这件事的意义比人们意识到的要大。一份临床笔记不仅仅是一份记录——它还是一种沟通：与未来的你自己沟通，与会诊的同事沟通，与多年后可能读到它的医疗法律体系沟通。如果一份笔记听起来不像是你写的，你就不会信任它；不信任它，你就会重写它；那么 AI 就什么都没有为你节省。

我想用通俗的语言解释——从一个不是工程师的角度——一个好的 AI 临床助手是如何贴合你的语气的，而又不必去做每一位医生都理所当然地害怕的那件事：在患者数据上训练模型。

错误的方法：在你的患者数据上做微调

大多数人听到"个性化 AI"时首先想到的就是微调（fine-tuning）。你给 AI 一千份你过去的笔记，它调整自己的权重，从此就能像你那样写。这是大多数消费级 AI 个性化背后的技术，而它恰恰是对医疗保健而言完全错误的技术。

微调意味着你患者的话语成为了模型的一部分。即便这个模型不被分享，即便训练数据是加密的，你也越过了一条线：一个从受保护健康信息中学习的系统，与一个不学习的系统，在法律和伦理上都是根本不同的。它也很难逆转。如果一位患者要求你删除他的记录，而这次删除必须传播到一个不透明的、已经训练好的模型里，会发生什么？你不会想成为那个向隐私专员解释的人。

正确的方法：示例、词典与运行时上下文

ActiveScribe 采用的是另一种方法。它不会在你的数据上进行微调。相反，系统使用了三层上下文，这些上下文会在生成笔记的那一刻被注入：

第一层是风格。入驻时，你上传少量你过去的笔记——经过去标识化、抹去患者识别信息——作为示例。系统从这些示例中提取你的风格：你使用缩写的密度、你组织小节标题的方式、你倾向简洁还是详细、你如何对不确定性进行表述。这在技术文献里被称为基于示例的提示（exemplar-based prompting），它和微调是完全不同的技术。你的示例是在它为你写笔记的那一刻被展示给模型的，而不是被烘焙进模型的权重里。

第二层是你的专科。一份精神科笔记和一份急诊室笔记、一份儿科健康婴儿就诊笔记的要求是不同的。ActiveScribe 维护了一组专科特定的规则——应包含哪些小节、绝不能省略什么、哪些时间戳最重要——并把它们叠加在你的风格之上。这意味着一位儿科医生的笔记既遵循儿科惯例，又依然听起来像那位特定的儿科医生。

第三层是不可协商的安全约束。无论你的风格说什么，无论你从事的是哪一专科，有些规则都不能被覆盖：不可有臆造的症状、不可有用药错误、不可有捏造的病史。这些规则位于提示堆栈的最顶层，而一组单独的验证器会在你看到这份生成的笔记之前，对照这些规则进行检查。

为什么这套架构对"信任"很重要

这种方法能给你几样微调给不了的东西。

你可以改变主意。如果你明天决定希望自己的笔记更简洁，你换掉示例，系统在下一次就诊时就会适应。无须重新训练，无须等待，无须管理模型版本。你的风格是配置，不是代码。

你的患者并不在模型里。一个在你的患者数据上训练过的模型，已经被这些患者永久改变。一个使用运行时上下文的模型，对每一个人来说都是同一个模型——你的个性化发生在提示里，而不是权重里。当一位患者要求删除他的数据时，这次删除是真实的，而不只是说说而已。

错误是可被检视的。如果某份生成的笔记有问题，团队可以查看产生它的那一份精确提示——你的风格层、你的专科层、安全层、转录稿本身。把这与调试一个微调模型相比，那更接近于调试一段记忆，而不是调试一段程序。当一个临床 AI 工具出问题时，"我们也不太清楚为什么"不是一个可以接受的回答。

它与监管机构的思考方式相容。医疗数据监管机构仍在摸索如何监管医疗保健中的 AI，但共识正在围绕一个核心原则形成：临床 AI 应当是可审计的、可删除的、不带隐藏状态的。一个"示例加上下文"的架构同时满足这三点。一个微调出来的模型则一项也不满足。

这在实际中意味着什么

当我坐下来审阅 ActiveScribe 生成的笔记时，它读起来就像是我会写出的笔记。不是某个泛泛的、AI 版本的我——而是我。我用的缩写。我每次都会包含的小节。我在第一百次描述儿童病毒感染时默认使用的措辞。系统并不是在假装是我；它是在这一刻，在它为我写笔记时，反映我曾向它展示过的、我写东西的方式。当我改变了写作方式，系统也会随我改变。当我删除一位患者，那位患者就真的没了。

我对技术并不感伤。我是一位繁忙诊所里的执业医生。但当我考虑哪些 AI 工具我希望能靠近我的患者时，我问的问题不是"哪一个最准确"——而是"哪一个我可以信任它在我能理解的方式上出错"。基于示例的 AI 是和微调过的 AI 在根本上不同的一种押注，对医疗保健而言，它是正确的那一种。

错误的方法：在你的患者数据上做微调

正确的方法：示例、词典与运行时上下文

为什么这套架构对"信任"很重要

这在实际中意味着什么

想要听起来像你的笔记吗？