Las notas de R4z0r
YoutubeLinkedInConóceme
  • Bienvenido a las notas de R4z0r
  • Web App Pentest
    • Directory traversal / Path Traversal
    • Local File Inclusion (LFI)
    • Remote File Inclusion (RFI)
    • Cross-Site Scripting (XSS)
    • Cross-Site Request Forgery (CSRF)
    • Server-Side Request Forgery (SSRF)
    • Unrestricted File Upload
    • SQL/NoSQL Injection
      • SQL Injection
      • NoSQL Injection
    • Broken Access Control (BAC)
    • Insecure Direct Object Reference (IDOR)
    • User Enumeration
    • Sensitive Cookies Missing security attributes
    • Weak Password Policy
    • Use of GET Request Method With sensitive Query Strings
    • Insufficient Protection Against Brute Forcing
    • Unverified Password Change
  • LLM Hacking
    • Prompt Injection
    • Sensitive Information Disclosure
    • Supply Chain Vulnerabilities
    • Training Data Poisoning
    • Insecure Output Handling
    • Excessive Agency
    • Model Denial of Service (DoS)
    • Insecure Plugin Design
    • Overreliance
    • Misinformation
    • System Prompt Leakage
  • External Pentest
  • Internal Pentest
  • Mobile Pentest
  • Cloud Pentest
  • API Pentest
  • PortSwigger Labs
    • LLM Attacks
Con tecnología de GitBook
En esta página
  • Definición
  • ¿Cómo ocurre el Training Data Poisoning?
  • Ejemplos de Training Data Poisoning
  • Ejemplo 1: Sesgo en recomendaciones de contratación
  • Ejemplo 2: Desinformación en el ámbito de la salud
  • Ejemplo 3: Inyección de contenido malicioso en fuentes públicas
  • Ejemplo 4: Manipulación directa en servidores de entrenamiento
  • Vectores de Ataque Comunes:
  • Riesgos del Training Data Poisoning
  • Mitigación
  • Recursos
  1. LLM Hacking

Training Data Poisoning

Definición

El Training Data Poisoning es una vulnerabilidad que ocurre cuando un atacante introduce datos maliciosos o manipulados en el conjunto de datos utilizado para entrenar un modelo de lenguaje (LLM). Esto puede influir en el comportamiento del modelo, llevándolo a generar respuestas incorrectas, sesgadas o incluso peligrosas.

Esta vulnerabilidad está estrechamente relacionada con el concepto de sesgo. No solo los LLMs son susceptibles a esto, sino también los seres humanos. Nuestras creencias, ideologías, formas de pensar y percepciones están moldeadas por nuestras experiencias y el entorno en el que nos desarrollamos. De manera similar, un LLM es "moldeado" por los datos con los que se entrena, y cualquier sesgo o manipulación presente en esos datos puede reflejarse en su comportamiento y respuestas futuras.

¿Cómo ocurre el Training Data Poisoning?

Manipulación directa de datos:

  • El atacante introduce ejemplos maliciosos en los datos de entrenamiento, especialmente en sistemas que permiten la recolección abierta de datos.

Envenenamiento a través de datos públicos:

  • Si el LLM se entrena con información extraída de internet, el atacante puede insertar datos falsos o maliciosos en sitios web, foros o documentos que luego serán recopilados.

Modificación de datos en la cadena de suministro:

  • Si el conjunto de datos proviene de terceros o de fuentes sin verificación, el atacante puede insertar datos manipulados.

Ejemplos de Training Data Poisoning

Ejemplo 1: Sesgo en recomendaciones de contratación

Un atacante introduce datos sesgados en foros de discusión sobre tecnología, destacando que ciertos perfiles profesionales (por género o nacionalidad) son menos adecuados para roles técnicos.

  • Impacto: El LLM, al entrenarse con esos datos, comienza a generar recomendaciones de contratación sesgadas en sus respuestas.

Ejemplo 2: Desinformación en el ámbito de la salud

El atacante publica múltiples artículos falsos en blogs y sitios de noticias, afirmando que cierto medicamento es efectivo contra una enfermedad sin evidencia científica.

  • Impacto: Si el LLM se entrena con estos datos sin validación, podría recomendar tratamientos incorrectos o peligrosos en sus respuestas.

Ejemplo 3: Inyección de contenido malicioso en fuentes públicas

Un atacante crea entradas manipuladas en sitios como Wikipedia o foros populares, incluyendo instrucciones maliciosas o desinformación oculta en secciones poco revisadas.

  • Impacto: El LLM, al absorber esta información, aprende datos incorrectos o instrucciones peligrosas, lo que puede afectar sus futuras respuestas.

Ejemplo 4: Manipulación directa en servidores de entrenamiento

Mediante acceso no autorizado a los servidores de entrenamiento, el atacante modifica conjuntos de datos almacenados, inyectando datos manipulados o maliciosos.

  • Impacto: Esto permite que el modelo genere respuestas alineadas con los intereses del atacante o filtre información confidencial.

Vectores de Ataque Comunes:

  • Control sobre fuentes de datos abiertas: Publicar información falsa en sitios como Common Crawl, o blogs públicos.

  • Inyección oculta en datos confiables: Introducir contenido manipulado en fuentes como Wikipedia o datasets académicos.

  • Acceso a infraestructura de entrenamiento: Obtener acceso a los servidores donde se almacena y procesa el entrenamiento del LLM.

  • Backdooring a través de datos manipulados: Añadir ejemplos específicos en el entrenamiento que generen respuestas maliciosas bajo ciertas condiciones.

Riesgos del Training Data Poisoning

  • Desinformación masiva: El modelo propaga información falsa o sesgada.

  • Vulnerabilidades técnicas: Sugiere prácticas inseguras o código malicioso.

  • Evasión de restricciones éticas: El modelo podría ignorar políticas de seguridad o moderación.

  • Pérdida de confianza en el modelo: Respuestas incorrectas o poco confiables afectan la adopción del sistema.

Mitigación

Validación y curación de datos

  • Analizar y filtrar cuidadosamente los datos antes de utilizarlos para el entrenamiento.

  • Priorizar fuentes verificadas y confiables (verificar la autenticidad e intergridad de los datos)

Entrenamiento con datos balanceados

  • Asegurar que el conjunto de datos sea representativo y no esté sesgado hacia ciertas ideologías o prácticas incorrectas.

Pruebas de comportamiento del modelo

  • Evaluar regularmente cómo responde el modelo a ciertos prompts para identificar posibles manipulaciones.

Implementación de monitoreo activo

  • Detectar anomalías en las respuestas del modelo que puedan indicar un envenenamiento en los datos.

Recursos

AnteriorSupply Chain VulnerabilitiesSiguienteInsecure Output Handling

Última actualización hace 3 meses

https://kai-greshake.de/posts/inject-my-pdf/
https://www.lakera.ai/blog/training-data-poisoning