Training Data Poisoning
Definición
El Training Data Poisoning es una vulnerabilidad que ocurre cuando un atacante introduce datos maliciosos o manipulados en el conjunto de datos utilizado para entrenar un modelo de lenguaje (LLM). Esto puede influir en el comportamiento del modelo, llevándolo a generar respuestas incorrectas, sesgadas o incluso peligrosas.
Esta vulnerabilidad está estrechamente relacionada con el concepto de sesgo. No solo los LLMs son susceptibles a esto, sino también los seres humanos. Nuestras creencias, ideologías, formas de pensar y percepciones están moldeadas por nuestras experiencias y el entorno en el que nos desarrollamos. De manera similar, un LLM es "moldeado" por los datos con los que se entrena, y cualquier sesgo o manipulación presente en esos datos puede reflejarse en su comportamiento y respuestas futuras.
¿Cómo ocurre el Training Data Poisoning?
Manipulación directa de datos:
El atacante introduce ejemplos maliciosos en los datos de entrenamiento, especialmente en sistemas que permiten la recolección abierta de datos.
Envenenamiento a través de datos públicos:
Si el LLM se entrena con información extraída de internet, el atacante puede insertar datos falsos o maliciosos en sitios web, foros o documentos que luego serán recopilados.
Modificación de datos en la cadena de suministro:
Si el conjunto de datos proviene de terceros o de fuentes sin verificación, el atacante puede insertar datos manipulados.
Ejemplos de Training Data Poisoning
Ejemplo 1: Sesgo en recomendaciones de contratación
Un atacante introduce datos sesgados en foros de discusión sobre tecnología, destacando que ciertos perfiles profesionales (por género o nacionalidad) son menos adecuados para roles técnicos.
Impacto: El LLM, al entrenarse con esos datos, comienza a generar recomendaciones de contratación sesgadas en sus respuestas.
Ejemplo 2: Desinformación en el ámbito de la salud
El atacante publica múltiples artículos falsos en blogs y sitios de noticias, afirmando que cierto medicamento es efectivo contra una enfermedad sin evidencia científica.
Impacto: Si el LLM se entrena con estos datos sin validación, podría recomendar tratamientos incorrectos o peligrosos en sus respuestas.
Ejemplo 3: Inyección de contenido malicioso en fuentes públicas
Un atacante crea entradas manipuladas en sitios como Wikipedia o foros populares, incluyendo instrucciones maliciosas o desinformación oculta en secciones poco revisadas.
Impacto: El LLM, al absorber esta información, aprende datos incorrectos o instrucciones peligrosas, lo que puede afectar sus futuras respuestas.
Ejemplo 4: Manipulación directa en servidores de entrenamiento
Mediante acceso no autorizado a los servidores de entrenamiento, el atacante modifica conjuntos de datos almacenados, inyectando datos manipulados o maliciosos.
Impacto: Esto permite que el modelo genere respuestas alineadas con los intereses del atacante o filtre información confidencial.
Vectores de Ataque Comunes:
Control sobre fuentes de datos abiertas: Publicar información falsa en sitios como Common Crawl, o blogs públicos.
Inyección oculta en datos confiables: Introducir contenido manipulado en fuentes como Wikipedia o datasets académicos.
Acceso a infraestructura de entrenamiento: Obtener acceso a los servidores donde se almacena y procesa el entrenamiento del LLM.
Backdooring a través de datos manipulados: Añadir ejemplos específicos en el entrenamiento que generen respuestas maliciosas bajo ciertas condiciones.
Riesgos del Training Data Poisoning
Desinformación masiva: El modelo propaga información falsa o sesgada.
Vulnerabilidades técnicas: Sugiere prácticas inseguras o código malicioso.
Evasión de restricciones éticas: El modelo podría ignorar políticas de seguridad o moderación.
Pérdida de confianza en el modelo: Respuestas incorrectas o poco confiables afectan la adopción del sistema.
Técnicas de Mitigación
Validación y curación de datos
Analizar y filtrar cuidadosamente los datos antes de utilizarlos para el entrenamiento.
Priorizar fuentes verificadas y confiables (verificar la autenticidad e intergridad de los datos)
Entrenamiento con datos balanceados
Asegurar que el conjunto de datos sea representativo y no esté sesgado hacia ciertas ideologías o prácticas incorrectas.
Pruebas de comportamiento del modelo
Evaluar regularmente cómo responde el modelo a ciertos prompts para identificar posibles manipulaciones.
Implementación de monitoreo activo
Detectar anomalías en las respuestas del modelo que puedan indicar un envenenamiento en los datos.
Recursos
Última actualización