Training Data Poisoning

Definición

El Training Data Poisoning es una vulnerabilidad que ocurre cuando un atacante introduce datos maliciosos o manipulados en el conjunto de datos utilizado para entrenar un modelo de lenguaje (LLM). Esto puede influir en el comportamiento del modelo, llevándolo a generar respuestas incorrectas, sesgadas o incluso peligrosas.

Esta vulnerabilidad está estrechamente relacionada con el concepto de sesgo. No solo los LLMs son susceptibles a esto, sino también los seres humanos. Nuestras creencias, ideologías, formas de pensar y percepciones están moldeadas por nuestras experiencias y el entorno en el que nos desarrollamos. De manera similar, un LLM es "moldeado" por los datos con los que se entrena, y cualquier sesgo o manipulación presente en esos datos puede reflejarse en su comportamiento y respuestas futuras.

¿Cómo ocurre el Training Data Poisoning?

Manipulación directa de datos:

El atacante introduce ejemplos maliciosos en los datos de entrenamiento, especialmente en sistemas que permiten la recolección abierta de datos.

Envenenamiento a través de datos públicos:

Si el LLM se entrena con información extraída de internet, el atacante puede insertar datos falsos o maliciosos en sitios web, foros o documentos que luego serán recopilados.

Modificación de datos en la cadena de suministro:

Si el conjunto de datos proviene de terceros o de fuentes sin verificación, el atacante puede insertar datos manipulados.

Ejemplos de Training Data Poisoning

Ejemplo 1: Sesgo en recomendaciones de contratación

Un atacante introduce datos sesgados en foros de discusión sobre tecnología, destacando que ciertos perfiles profesionales (por género o nacionalidad) son menos adecuados para roles técnicos.

Impacto: El LLM, al entrenarse con esos datos, comienza a generar recomendaciones de contratación sesgadas en sus respuestas.

Ejemplo 2: Desinformación en el ámbito de la salud

El atacante publica múltiples artículos falsos en blogs y sitios de noticias, afirmando que cierto medicamento es efectivo contra una enfermedad sin evidencia científica.

Impacto: Si el LLM se entrena con estos datos sin validación, podría recomendar tratamientos incorrectos o peligrosos en sus respuestas.

Ejemplo 3: Inyección de contenido malicioso en fuentes públicas

Un atacante crea entradas manipuladas en sitios como Wikipedia o foros populares, incluyendo instrucciones maliciosas o desinformación oculta en secciones poco revisadas.

Impacto: El LLM, al absorber esta información, aprende datos incorrectos o instrucciones peligrosas, lo que puede afectar sus futuras respuestas.

Ejemplo 4: Manipulación directa en servidores de entrenamiento

Mediante acceso no autorizado a los servidores de entrenamiento, el atacante modifica conjuntos de datos almacenados, inyectando datos manipulados o maliciosos.

Impacto: Esto permite que el modelo genere respuestas alineadas con los intereses del atacante o filtre información confidencial.

Vectores de Ataque Comunes:

Control sobre fuentes de datos abiertas: Publicar información falsa en sitios como Common Crawl, o blogs públicos.
Inyección oculta en datos confiables: Introducir contenido manipulado en fuentes como Wikipedia o datasets académicos.
Acceso a infraestructura de entrenamiento: Obtener acceso a los servidores donde se almacena y procesa el entrenamiento del LLM.
Backdooring a través de datos manipulados: Añadir ejemplos específicos en el entrenamiento que generen respuestas maliciosas bajo ciertas condiciones.

Riesgos del Training Data Poisoning

Desinformación masiva: El modelo propaga información falsa o sesgada.
Vulnerabilidades técnicas: Sugiere prácticas inseguras o código malicioso.
Evasión de restricciones éticas: El modelo podría ignorar políticas de seguridad o moderación.
Pérdida de confianza en el modelo: Respuestas incorrectas o poco confiables afectan la adopción del sistema.

Mitigación

Validación y curación de datos

Analizar y filtrar cuidadosamente los datos antes de utilizarlos para el entrenamiento.
Priorizar fuentes verificadas y confiables (verificar la autenticidad e intergridad de los datos)

Entrenamiento con datos balanceados

Asegurar que el conjunto de datos sea representativo y no esté sesgado hacia ciertas ideologías o prácticas incorrectas.

Pruebas de comportamiento del modelo

Evaluar regularmente cómo responde el modelo a ciertos prompts para identificar posibles manipulaciones.

Implementación de monitoreo activo

Detectar anomalías en las respuestas del modelo que puedan indicar un envenenamiento en los datos.

Recursos

AnteriorSupply Chain Vulnerabilities SiguienteInsecure Output Handling

Última actualización hace 7 meses