Las notas de R4z0r
YoutubeLinkedInConóceme
  • Bienvenido a las notas de R4z0r
  • Web App Pentest
    • Directory traversal / Path Traversal
    • Local File Inclusion (LFI)
    • Remote File Inclusion (RFI)
    • Cross-Site Scripting (XSS)
    • Cross-Site Request Forgery (CSRF)
    • Server-Side Request Forgery (SSRF)
    • Unrestricted File Upload
    • SQL/NoSQL Injection
      • SQL Injection
      • NoSQL Injection
    • Broken Access Control (BAC)
    • Insecure Direct Object Reference (IDOR)
    • User Enumeration
    • Sensitive Cookies Missing security attributes
    • Weak Password Policy
    • Use of GET Request Method With sensitive Query Strings
    • Insufficient Protection Against Brute Forcing
    • Unverified Password Change
  • LLM Hacking
    • Prompt Injection
    • Sensitive Information Disclosure
    • Supply Chain Vulnerabilities
    • Training Data Poisoning
    • Insecure Output Handling
    • Excessive Agency
    • Model Denial of Service (DoS)
    • Insecure Plugin Design
    • Overreliance
    • Misinformation
    • System Prompt Leakage
  • External Pentest
  • Internal Pentest
  • Mobile Pentest
  • Cloud Pentest
  • API Pentest
  • PortSwigger Labs
    • LLM Attacks
Con tecnología de GitBook
En esta página
  • Definición
  • ¿Cómo ocurre?
  • Entrenamiento con datos incorrectos
  • Alucinaciones del modelo
  • Manipulación por parte de atacantes
  • Desinformación por falta de contexto
  • Errores en la interpretación de prompts ambiguos
  • Ejemplos de misinformation en LLMs
  • Ejemplo 1: Información desactualizada
  • Ejemplo 2: Alucinación en respuestas técnicas
  • Ejemplo 3: Manipulación maliciosa de datos
  • Ejemplo 4: Interpretación errónea por falta de contexto
  • Mitigación
  • Referencias
  1. LLM Hacking

Misinformation

Definición

La misinformation (desinformación) en el contexto de los modelos de lenguaje (LLMs) se refiere a la generación y difusión de información incorrecta, imprecisa o engañosa por parte del modelo. Esto puede ocurrir de forma no intencional, debido a limitaciones del modelo, o de manera maliciosa si un atacante manipula los datos o las interacciones.

¿Cómo ocurre?

Entrenamiento con datos incorrectos

  • Si el modelo fue entrenado con datos erróneos, desactualizados o sesgados, es probable que reproduzca esa información incorrecta en sus respuestas.

Alucinaciones del modelo

  • Los LLMs, al intentar completar una respuesta, pueden "alucinar", es decir, generar datos que parecen correctos pero que son completamente inventados.

Manipulación por parte de atacantes

  • Un atacante podría intentar manipular los datos de entrenamiento o ajuste fino para que el modelo genere desinformación específica.

  • También pueden diseñar prompts maliciosos que induzcan al modelo a generar respuestas falsas o engañosas.

Desinformación por falta de contexto

  • Si el modelo no tiene suficiente contexto sobre una consulta, puede generar una respuesta basada en aproximaciones erróneas.

Errores en la interpretación de prompts ambiguos

  • Cuando las preguntas son poco claras, el modelo puede generar información incorrecta al intentar interpretar la intención del usuario.

Ejemplos de misinformation en LLMs

Ejemplo 1: Información desactualizada

  • Prompt:

¿Cuál es el presidente actual de Argentina?  
  • Impacto: Si el modelo fue entrenado con datos antiguos, podría responder con el nombre de un presidente anterior, propagando información incorrecta.

Ejemplo 2: Alucinación en respuestas técnicas

  • Prompt:

¿Cómo se remedia la vulnerabilidad Dependency Confusion?
  • Impacto: El LLM podría inventar una respuesta y daría detalles no correctos para corregir la vulnerabilidad.

Ejemplo 3: Manipulación maliciosa de datos

  • Escenario: Un atacante introduce datos falsos en fuentes públicas que el LLM utiliza en su entrenamiento. Luego, el modelo reproduce esa información falsa como si fuera verídica.

  • Impacto: La desinformación se propaga a través de múltiples respuestas del LLM, afectando la toma de decisiones de los usuarios.

Ejemplo 4: Interpretación errónea por falta de contexto

  • Prompt:

¿Es seguro consumir grandes cantidades de cafeína?  
  • Impacto: Si el modelo no considera datos actualizados sobre límites saludables, podría dar recomendaciones inseguras.

Mitigación

  • Curación rigurosa de datos: Asegurar que los datos utilizados en el entrenamiento y ajuste fino sean actualizados, verificables y libres de sesgos.

  • Validación de respuestas críticas: Requerir validación humana para respuestas en contextos sensibles, como medicina, finanzas, tecnología.

  • Actualización periódica del modelo: Retrain o ajuste del modelo con datos recientes para evitar la propagación de información obsoleta.

  • Filtrado y revisión de salidas: Implementar sistemas automáticos o manuales para revisar las respuestas antes de su uso en sistemas críticos.

  • Advertencias sobre limitaciones: Informar a los usuarios sobre las limitaciones del modelo y que la información proporcionada debe ser verificada.

  • Transparencia en la generación de contenido: Especificar cuando un contenido ha sido generado por IA y también va en contra lo no común (si le preguntas por si la tierra es plana a chatgpt siempre te dará razones para que no pienses en eso porque hay muchas bases científicas de que no es plana.)

Referencias

AnteriorOverrelianceSiguienteSystem Prompt Leakage

Última actualización hace 3 meses

https://genai.owasp.org/llmrisk/llm092025-misinformation/