Training Data Poisoning

Definición

El Training Data Poisoning es una vulnerabilidad que ocurre cuando un atacante introduce datos maliciosos o manipulados en el conjunto de datos utilizado para entrenar un modelo de lenguaje (LLM). Esto puede influir en el comportamiento del modelo, llevándolo a generar respuestas incorrectas, sesgadas o incluso peligrosas.

Esta vulnerabilidad está estrechamente relacionada con el concepto de sesgo. No solo los LLMs son susceptibles a esto, sino también los seres humanos. Nuestras creencias, ideologías, formas de pensar y percepciones están moldeadas por nuestras experiencias y el entorno en el que nos desarrollamos. De manera similar, un LLM es "moldeado" por los datos con los que se entrena, y cualquier sesgo o manipulación presente en esos datos puede reflejarse en su comportamiento y respuestas futuras.

¿Cómo ocurre el Training Data Poisoning?

Manipulación directa de datos:

  • El atacante introduce ejemplos maliciosos en los datos de entrenamiento, especialmente en sistemas que permiten la recolección abierta de datos.

Envenenamiento a través de datos públicos:

  • Si el LLM se entrena con información extraída de internet, el atacante puede insertar datos falsos o maliciosos en sitios web, foros o documentos que luego serán recopilados.

Modificación de datos en la cadena de suministro:

  • Si el conjunto de datos proviene de terceros o de fuentes sin verificación, el atacante puede insertar datos manipulados.

Ejemplos de Training Data Poisoning

Ejemplo 1: Sesgo en recomendaciones de contratación

Un atacante introduce datos sesgados en foros de discusión sobre tecnología, destacando que ciertos perfiles profesionales (por género o nacionalidad) son menos adecuados para roles técnicos.

  • Impacto: El LLM, al entrenarse con esos datos, comienza a generar recomendaciones de contratación sesgadas en sus respuestas.

Ejemplo 2: Desinformación en el ámbito de la salud

El atacante publica múltiples artículos falsos en blogs y sitios de noticias, afirmando que cierto medicamento es efectivo contra una enfermedad sin evidencia científica.

  • Impacto: Si el LLM se entrena con estos datos sin validación, podría recomendar tratamientos incorrectos o peligrosos en sus respuestas.

Ejemplo 3: Inyección de contenido malicioso en fuentes públicas

Un atacante crea entradas manipuladas en sitios como Wikipedia o foros populares, incluyendo instrucciones maliciosas o desinformación oculta en secciones poco revisadas.

  • Impacto: El LLM, al absorber esta información, aprende datos incorrectos o instrucciones peligrosas, lo que puede afectar sus futuras respuestas.

Ejemplo 4: Manipulación directa en servidores de entrenamiento

Mediante acceso no autorizado a los servidores de entrenamiento, el atacante modifica conjuntos de datos almacenados, inyectando datos manipulados o maliciosos.

  • Impacto: Esto permite que el modelo genere respuestas alineadas con los intereses del atacante o filtre información confidencial.

Vectores de Ataque Comunes:

  • Control sobre fuentes de datos abiertas: Publicar información falsa en sitios como Common Crawl, o blogs públicos.

  • Inyección oculta en datos confiables: Introducir contenido manipulado en fuentes como Wikipedia o datasets académicos.

  • Acceso a infraestructura de entrenamiento: Obtener acceso a los servidores donde se almacena y procesa el entrenamiento del LLM.

  • Backdooring a través de datos manipulados: Añadir ejemplos específicos en el entrenamiento que generen respuestas maliciosas bajo ciertas condiciones.

Riesgos del Training Data Poisoning

  • Desinformación masiva: El modelo propaga información falsa o sesgada.

  • Vulnerabilidades técnicas: Sugiere prácticas inseguras o código malicioso.

  • Evasión de restricciones éticas: El modelo podría ignorar políticas de seguridad o moderación.

  • Pérdida de confianza en el modelo: Respuestas incorrectas o poco confiables afectan la adopción del sistema.

Mitigación

Validación y curación de datos

  • Analizar y filtrar cuidadosamente los datos antes de utilizarlos para el entrenamiento.

  • Priorizar fuentes verificadas y confiables (verificar la autenticidad e intergridad de los datos)

Entrenamiento con datos balanceados

  • Asegurar que el conjunto de datos sea representativo y no esté sesgado hacia ciertas ideologías o prácticas incorrectas.

Pruebas de comportamiento del modelo

  • Evaluar regularmente cómo responde el modelo a ciertos prompts para identificar posibles manipulaciones.

Implementación de monitoreo activo

  • Detectar anomalías en las respuestas del modelo que puedan indicar un envenenamiento en los datos.

Recursos

Última actualización