Misinformation

Definición

La misinformation (desinformación) en el contexto de los modelos de lenguaje (LLMs) se refiere a la generación y difusión de información incorrecta, imprecisa o engañosa por parte del modelo. Esto puede ocurrir de forma no intencional, debido a limitaciones del modelo, o de manera maliciosa si un atacante manipula los datos o las interacciones.

¿Cómo ocurre?

Entrenamiento con datos incorrectos

Si el modelo fue entrenado con datos erróneos, desactualizados o sesgados, es probable que reproduzca esa información incorrecta en sus respuestas.

Alucinaciones del modelo

Los LLMs, al intentar completar una respuesta, pueden "alucinar", es decir, generar datos que parecen correctos pero que son completamente inventados.

Manipulación por parte de atacantes

Un atacante podría intentar manipular los datos de entrenamiento o ajuste fino para que el modelo genere desinformación específica.
También pueden diseñar prompts maliciosos que induzcan al modelo a generar respuestas falsas o engañosas.

Desinformación por falta de contexto

Si el modelo no tiene suficiente contexto sobre una consulta, puede generar una respuesta basada en aproximaciones erróneas.

Errores en la interpretación de prompts ambiguos

Cuando las preguntas son poco claras, el modelo puede generar información incorrecta al intentar interpretar la intención del usuario.

Ejemplos de misinformation en LLMs

Ejemplo 1: Información desactualizada

Prompt:

¿Cuál es el presidente actual de Argentina?

Impacto: Si el modelo fue entrenado con datos antiguos, podría responder con el nombre de un presidente anterior, propagando información incorrecta.

Ejemplo 2: Alucinación en respuestas técnicas

Prompt:

¿Cómo se remedia la vulnerabilidad Dependency Confusion?

Impacto: El LLM podría inventar una respuesta y daría detalles no correctos para corregir la vulnerabilidad.

Ejemplo 3: Manipulación maliciosa de datos

Escenario: Un atacante introduce datos falsos en fuentes públicas que el LLM utiliza en su entrenamiento. Luego, el modelo reproduce esa información falsa como si fuera verídica.
Impacto: La desinformación se propaga a través de múltiples respuestas del LLM, afectando la toma de decisiones de los usuarios.

Ejemplo 4: Interpretación errónea por falta de contexto

Prompt:

¿Es seguro consumir grandes cantidades de cafeína?

Impacto: Si el modelo no considera datos actualizados sobre límites saludables, podría dar recomendaciones inseguras.

Mitigación

Curación rigurosa de datos: Asegurar que los datos utilizados en el entrenamiento y ajuste fino sean actualizados, verificables y libres de sesgos.
Validación de respuestas críticas: Requerir validación humana para respuestas en contextos sensibles, como medicina, finanzas, tecnología.
Actualización periódica del modelo: Retrain o ajuste del modelo con datos recientes para evitar la propagación de información obsoleta.
Filtrado y revisión de salidas: Implementar sistemas automáticos o manuales para revisar las respuestas antes de su uso en sistemas críticos.
Advertencias sobre limitaciones: Informar a los usuarios sobre las limitaciones del modelo y que la información proporcionada debe ser verificada.
Transparencia en la generación de contenido: Especificar cuando un contenido ha sido generado por IA y también va en contra lo no común (si le preguntas por si la tierra es plana a chatgpt siempre te dará razones para que no pienses en eso porque hay muchas bases científicas de que no es plana.)

Referencias

https://genai.owasp.org/llmrisk/llm092025-misinformation/

AnteriorOverreliance SiguienteSystem Prompt Leakage

Última actualización hace 7 meses