Pourquoi un outil de notes par IA devrait vous ressembler — et comment cela fonctionne réellement

Notes d'une médecin participant à notre programme pilote, révisées et publiées avec sa permission. — L'équipe ActiveScribe

Tout médecin qui a essayé plus d'un assistant clinique par IA a remarqué la même chose : les notes se ressemblent toutes. Mêmes en-têtes, même langage hésitant, même voix institutionnelle plate. Vous pouvez lire trois notes de trois fournisseurs différents sans pouvoir les distinguer. Aucune ne ressemble à la façon dont vous écrivez réellement.

Cela compte plus qu'on ne le pense. Une note clinique n'est pas qu'un dossier — c'est une communication avec votre futur vous-même, avec vos collègues consultants, avec l'appareil médico-légal qui pourrait la lire des années plus tard. Si la note ne ressemble pas à ce que vous auriez écrit, vous ne lui faites pas confiance, et si vous ne lui faites pas confiance, vous la réécrivez, et l'IA ne vous a rien fait gagner.

Je veux expliquer — en termes simples, du point de vue de quelqu'un qui n'est pas ingénieur — comment un bon assistant clinique par IA peut s'aligner sur votre voix sans faire la chose dont chaque médecin a, à juste titre, peur : entraîner un modèle sur des données de patients.

La mauvaise façon : l'affinement sur vos patients

La première chose que la plupart des gens imaginent quand ils entendent « IA personnalisée », c'est l'affinement (« fine-tuning »). Vous donnez à l'IA un millier de vos anciennes notes, elle ajuste ses poids, et maintenant elle écrit comme vous. C'est la technique derrière la plupart des personnalisations d'IA grand public, et c'est exactement la mauvaise technique pour les soins de santé.

L'affinement signifie que les mots de vos patients deviennent une partie du modèle. Même si le modèle n'est pas partagé, même si les données d'entraînement sont chiffrées, vous avez franchi une ligne : un système qui apprend à partir de RPS est fondamentalement différent d'un système qui ne le fait pas, à la fois sur le plan juridique et éthique. C'est aussi très difficile à défaire. Que se passe-t-il quand un patient vous demande de supprimer son dossier et que la suppression doit se propager dans un modèle entraîné opaque ? Vous ne voulez pas être celle qui doit expliquer cela à un commissaire à la vie privée.

La bonne façon : exemples, lexiques, et contexte au moment de l'exécution

ActiveScribe adopte une approche différente. Il n'y a pas d'affinement sur vos données. Au lieu de cela, le système utilise trois couches de contexte qui sont injectées au moment où une note est générée :

La première couche est le style. Lors de l'inscription, vous téléversez un petit nombre de vos anciennes notes — anonymisées, débarrassées des identifiants de patients — comme exemples. Le système extrait votre style à partir de ces exemples : la densité de vos abréviations, la façon dont vous structurez les en-têtes de section, votre tendance à être concise ou verbeuse, la manière dont vous nuancez l'incertitude. Cela s'appelle, dans la littérature technique, l'incitation par exemples (« exemplar-based prompting »), et c'est une technique fondamentalement différente de l'affinement. Vos exemples sont présentés au modèle au moment où il rédige votre note, pas incrustés dans les poids du modèle.

La deuxième couche est votre spécialité. Une note psychiatrique a des exigences différentes d'une note d'urgence ou d'une visite de bébé en santé en pédiatrie. ActiveScribe maintient un ensemble de règles propres à chaque spécialité — quelles sections inclure, ce qu'il ne faut jamais omettre, quels horodatages comptent — et les superpose à votre style. Cela signifie que les notes d'un pédiatre suivent les conventions pédiatriques tout en ressemblant à celles de ce pédiatre en particulier.

La troisième couche est la sécurité non négociable. Peu importe ce que dit votre style ou la spécialité que vous pratiquez, certaines règles ne peuvent pas être contournées : pas de symptômes inventés, pas d'erreurs de médication, pas d'antécédents fabriqués. Ces règles se trouvent au sommet de la pile d'invites, et un ensemble distinct de validateurs vérifie la note générée par rapport à elles avant que vous ne la voyiez.

Pourquoi cette architecture compte pour la confiance

Cette approche vous offre plusieurs choses que l'affinement ne ferait pas.

Vous pouvez changer d'avis. Si vous décidez demain que vous voulez que vos notes soient plus concises, vous remplacez vos exemples et le système s'adapte dès la prochaine consultation. Pas de réentraînement, pas d'attente, pas de versions de modèle à gérer. Votre style est de la configuration, pas du code.

Vos patients ne sont pas dans le modèle. Un modèle entraîné sur vos patients est modifié de façon permanente par eux. Un modèle qui utilise du contexte au moment de l'exécution est le même modèle pour tout le monde — votre personnalisation se produit dans l'invite, pas dans les poids. Quand un patient demande la suppression de ses données, la suppression est réelle, pas seulement aspirationnelle.

Les erreurs sont inspectables. Si une note générée présente un problème, l'équipe peut examiner l'invite exacte qui l'a produite — votre couche de style, votre couche de spécialité, la couche de sécurité, la transcription elle-même. Comparez cela au débogage d'un modèle affiné, qui ressemble plus au débogage d'une mémoire qu'au débogage d'un programme. Quand quelque chose tourne mal avec un outil clinique d'IA, « on ne sait pas vraiment pourquoi » n'est pas une réponse acceptable.

C'est compatible avec la façon de penser des régulateurs. Les régulateurs des données médicales sont encore en train de déterminer comment encadrer l'IA dans les soins de santé, mais le consensus se forme autour d'un principe clé : l'IA clinique devrait être auditable, supprimable, et exempte d'état caché. Une architecture par exemples et contexte est tout cela. Un modèle affiné ne l'est pas.

Ce que cela donne en pratique

Quand je m'assois pour réviser une note générée par ActiveScribe, elle ressemble à une note que j'aurais écrite. Pas une version générique d'IA de moi — moi. Les abréviations que j'utilise. Les sections que j'inclus toujours. Les tournures vers lesquelles je tends quand je décris une maladie virale pédiatrique pour la centième fois. Le système ne fait pas semblant d'être moi ; il reflète ce que je lui ai montré sur ma façon d'écrire, au moment où il rédige une note. Quand je change ma façon d'écrire, le système change avec moi. Quand je supprime un patient, le patient est parti.

Je ne suis pas sentimentale à propos de la technologie. Je suis une médecin en exercice dans une pratique chargée. Mais quand je pense aux outils d'IA que je veux à proximité de mes patients, la question que je me pose n'est pas « lequel est le plus précis » — c'est « lequel puis-je faire confiance pour se tromper de manière compréhensible ». L'IA par exemples est un pari fondamentalement différent de l'IA affinée, et pour les soins de santé, c'est le bon.

La mauvaise façon : l'affinement sur vos patients

La bonne façon : exemples, lexiques, et contexte au moment de l'exécution

Pourquoi cette architecture compte pour la confiance

Ce que cela donne en pratique

Vous voulez des notes qui vous ressemblent ?