La sécurité et la confidentialité des données de Nabla Copilot.

Clément Baudelaire
ML Product Manager
La sécurité et la confidentialité des données occupent une place centrale dans la conception de nos produits.. Nous nous engageons à sécuriser les données des utilisateurs, à éliminer de potentielles vulnérabilités et à assurer la continuité du service.
Concrètement, nous utilisons un ensemble de technologies, de services et de procédures standards pour protéger les données contre l'accès, la divulgation ou l'utilisation non autorisés des données ainsi que contre la perte de données.
Nous venons de lancer Nabla Copilot, qui permet de générer des comptes rendus médicaux pour permettre aux praticiens de concentrer toute leur attention au patient. Vous pouvez l'essayer gratuitement ici !
Cet article détaille comment les données sont recueillies, stockées et traitées lorsqu'un praticien utilise Nabla Copilot. Nous avons construit cet outil en garantissant le plus haut niveau de sécurité et de conformité à la réglementation en vigueur, tout en veillant à ne jamais compromettre la qualité du compte rendu généré.
Parcours des données dans Nabla Copilot
Ce qu’il faut savoir en quelques mots : Nabla Copilot transforme une conversation médicale qui a eu lieu lors d'une consultation vidéo en un compte rendu médical structuré qui peut être exporté directement vers le dossier médical du patient.
Dans les détails :
Depuis l’onglet du navigateur, Nabla Copilot capte l’audio de la consultation vidéo, lorsque le praticien commence à utiliser l’extension. L’audio n’est capté que si le praticien décide de cliquer sur le bouton pour commencer.
L'audio est ensuite transcrit en direct à l'aide d'une API de reconnaissance vocale (une API est une interface de programmation d’application).
Ce transcript est ensuite traité pour générer un compte rendu suivant la structure classique utilisée par les praticiens pour documenter les consultations, à l'aide d'une combinaison d'algorithmes internes de structuration du langage naturel et d'un modèle de langue de grande taille (LLM en anglais).
Voici un graphique résumant le flux des données :
Flux des données dans Nabla Copilot
Stockage et traitement des données
Le principe est très simple, Nabla ne stocke aucune donnée, qu'il s'agisse de l’audio de la consultation, du transcript ou du compte rendu généré. Le transcript et le compte rendu sont uniquement stockés sur l’ordinateur personnel du praticien, dans le fichier de stockage de Chrome. Cela signifie que ces données restent toujours sur l'ordinateur du praticien, et jamais sur les serveurs de Nabla.
Nabla ne stocke pas les données mais les traite pour transformer l'audio brut d'une consultation en un compte rendu structuré simple.
Ce traitement de données est effectué sur les serveurs de Nabla, qui sont hébergés sur la plate-forme Google Cloud (GCP) conforme au RGPD et certifié HDS (Hébergeur de données de santé), et sur des serveurs LLM.
Confidentialité
Les conversations lors d'une consultation médicale entre un patient et un praticien contiennent généralement des informations personnellement identifiables. Par exemple : des données démographiques, des antécédents médicaux, des résultats de tests et de laboratoire, des problèmes de santé, des informations d'assurance et d'autres données personnelles qu'un professionnel de santé collecte pour fournir des soins appropriés. Il est primordial d’apporter le plus grand niveau de sécurité à la confidentialité de ces données.
En plus d’avoir désactivé la conservation des données avec notre fournisseur LLM, nous avons mis en place une couche de sécurité supplémentaire avec un algorithme de pseudonymisation qui supprime systématiquement toutes les parties du transcript contenant des informations personnellement identifiables.
En pratique, cet algorithme masque les noms, adresses, dates, numéros de téléphone et de fax, numéro de sécurité sociale, numéro de dossier médical. Voici un exemple de pseudonymisation :
"Je m'appelle Clément, je suis né le 16/06" devient "Je m'appelle [masked_name_001], je suis né le [masked_date_001]".
La version masquée est celle que nous envoyons à notre fournisseur LLM. De cette façon, étant donné que le LLM n'a pas d'identifiants personnels en entrée, le LLM ne peut pas non plus renvoyer d'identifiants personnels en sortie. C'est cette sortie qui est utilisée en combinaison avec nos propres algorithmes pour suggérer le compte rendu dans Nabla Copilot. Au mieux, la sortie LLM inclura des expressions de type [masked_name] ou [masked_date], comme indiqué dans l'exemple ci-dessus.
Bien sûr, si vous avez déjà utilisé Nabla Copilot, vous avez probablement vu des informations personnellement identifiables pertinentes dans le compte rendu suggéré, et non un [masked_name] ou [masked_date].
Nous avons aussi mentionné précédemment qu'aucune donnée n'était jamais stockée par Nabla. Notre algorithme de pseudonymisation conserve un enregistrement des informations personnellement identifiables réelles avec un lien vers leurs versions masquées fournies au LLM. Cette table de correspondance est temporairement stockée dans la mémoire vive (RAM) des serveurs de Nabla, mais elle est détruite après chaque requête et il n'y a aucun moyen d'y accéder.
La table de correspondance après chaque requête
En résumé, nous remplaçons toutes les informations personnellement identifiables masquées par leurs versions non masquées, générant un compte rendu utilisable pour les praticiens tout en préservant la confidentialité lors du transit des données.
Sécurité
Pour conclure sur la sécurité, puisqu'aucune donnée n'est stockée sur nos serveurs, nous pouvons garantir que personne chez Nabla ou ailleurs d'ailleurs n'est en mesure d'accéder aux informations personnelles discutées lors de la consultation.
Ceci étant dit, les données doivent aussi être sécurisées pendant leur transit et pendant leur traitement. Nabla s'appuie pour cela sur des processus et des systèmes à plusieurs niveaux.
Au niveau de l'organisation et de l'accès des employés Nabla, nous avons mis en place un programme de sécurité de l'information et une formation de sensibilisation à la sécurité, effectué des audits tiers et des tests d'intrusion, mis en place des rôles, des responsabilités, des autorisations et des fonctionnalités d'authentification (SSO, 2FA, etc.), ainsi que le principe d'accès au moindre privilège.
Au niveau de l’hébergement, tous nos services sont hébergés par Google Cloud Platform (GCP) qui utilise un programme de sécurité robuste avec plusieurs certifications. De plus, nous avons implémenté le cryptage TLS/SSL en transit pour assurer la sécurité des données de bout en bout. Enfin, toute activité inhabituelle serait signalée par le biais de programmes d'analyse des vulnérabilités, de journalisation, de surveillance et d'alerte.
Au niveau des fournisseurs et de la gestion des risques, nous effectuons des évaluations annuelles des risques ainsi qu'une gestion des risques des fournisseurs.
Pour renforcer notre engagement, nous sommes en conformité SOC 2 Type 2 et également certifiés ISO 27001.
Conclusion
L'objectif de Nabla est de préserver la confidentialité des données tout en générant des comptes rendu de grande qualité. Cet objectif nous amène également à développer et à entraîner des algorithmes de reconnaissance vocale et des modèles de langue de grande taille tous deux entraînés spécifiquement sur des données médicales.
Nous nous attendons à ce que plusieurs variantes de LLM comme GPT-4 plus légères soient disponibles dans les semaines ou les mois à venir, rendant possible l’hébergement de tels modèles chez Nabla.
Nous sommes enfin persuadés que la spécialisation de ces variantes davantage spécialisées sur des données de santé offriront des performances supérieures aux modèles très généralistes dans ce domaine.