logo móvil
Contáctanos

Los modelos de lenguaje médico de gran tamaño son vulnerables a ataques de envenenamiento de datos

Autores: Alber, Daniel Alexander; Yang, Zihao; Alyakin, Anton; Yang, Eunice; Rai, Sumedha; Valliani, Aly A.; Zhang, Jeff; Rosenbaum, Gabriel R.; Amend-Thomas, Ashley K.; Kurland, David B.; Kremer, Caroline M.; Eremiev, Alexander; Negash, Bruck; Wiggan, Daniel D.; Nakatsuka, Michelle A.; Sangwo, Karl L.; Neifert, Sean N.; Khan, Hammad A.; Vinod Save, Akshay; Palla, Adhith; Grin, Eric A.; Hedman, Monika; Nas

Idioma: Inglés

Editor: João Monteiro

Año: 2025

Ver Artículo científico

Acceso abierto

Artículo científico


Categoría

Ingeniería y Tecnología

Subcategoría

Ingeniería de Software

Palabras clave

Modelos de lenguaje
Salud
Desinformación médica
Envenenamiento de datos
Grafos de conocimiento
Aplicaciones médica

Licencia

CC BY-NC-ND – Atribución – No Comercial – Sin Derivadas

Consultas: 88

Citaciones: Ingeniería y salud


Descripción

El uso de modelos de lenguaje de gran escala (LLMs) en salud requiere cautela debido al riesgo de difundir desinformación médica. Este estudio simula un ataque de envenenamiento de datos en The Pile, un conjunto común para entrenar LLMs, demostrando que reemplazar solo el 0,001% de los datos con información médica falsa puede generar modelos dañinos sin afectar su rendimiento en pruebas estándar. Para mitigar estos riesgos, los autores proponen validar las respuestas de LLMs con grafos de conocimiento biomédico, logrando detectar el 91,9% del contenido dañino. Además, se destaca la necesidad urgente de datos verificados y desarrollo transparente en aplicaciones médicas.

Otros recursos que podrían interesarte

    Temas Virtualpro