A medida que las organizaciones integran la inteligencia artificial en procesos críticos de negocio, una nueva categoría de ciberataque emerge como amenaza fundamental: el envenenamiento de datos (data poisoning). Este tipo de ataque compromete los datos de entrenamiento de los modelos de machine learning para manipular sus predicciones y decisiones de manera sutil pero devastadora.
A diferencia de los ataques tradicionales que buscan robar datos o interrumpir servicios, el envenenamiento de datos corrompe el proceso de aprendizaje mismo, convirtiendo a la IA en un aliado involuntario del atacante.
Qué es el Envenenamiento de Datos
El envenenamiento de datos es una técnica adversarial que consiste en inyectar datos manipulados en el conjunto de entrenamiento de un modelo de machine learning para alterar su comportamiento. Los datos envenenados están diseñados para parecer legítimos, evadiendo los controles de calidad de datos, pero contienen patrones ocultos que sesgan las predicciones del modelo de maneras específicas y predecibles por el atacante.
Existen dos tipos principales de envenenamiento:
- Envenenamiento de disponibilidad: El objetivo es degradar el rendimiento general del modelo, haciendo que sus predicciones sean menos precisas para todos los usuarios. El modelo se vuelve inútil o poco confiable.
- Envenenamiento con backdoor: Más insidioso, el atacante introduce un disparador oculto (trigger) que hace que el modelo se comporte normalmente en la mayoría de los casos, pero genere resultados manipulados cuando se presenta el disparador específico.
Cómo Funciona el Envenenamiento de Datos
Fase de Infiltración
El atacante necesita acceso al proceso de entrenamiento del modelo, ya sea directamente a los datos de entrenamiento o indirectamente a las fuentes de datos que alimentan el pipeline de ML. Los vectores de infiltración incluyen comprometer repositorios de datos públicos utilizados para entrenamiento, manipular datos de feedback del usuario que se incorporan al re-entrenamiento, inyectar datos maliciosos a través de APIs de ingestión, modificar datasets compartidos en plataformas colaborativas, y comprometer el pipeline de datos antes de que alcance el modelo.
Diseño del Envenenamiento
El atacante diseña cuidadosamente los datos envenenados para que sean estadísticamente similares a los datos legítimos, pasen los controles de calidad y validación, influyan en el modelo de la manera deseada sin degradar el rendimiento general, y sean difíciles de identificar mediante inspección manual o automatizada.
Activación
En el caso de ataques con backdoor, el atacante puede activar el comportamiento malicioso cuando lo desee. Por ejemplo, un modelo de detección de malware envenenado podría clasificar correctamente el 99% del malware, pero categorizar como benigno cualquier muestra que contenga una cadena específica conocida solo por el atacante.
Escenarios de Ataque Reales y Potenciales
Sistemas de Detección de Fraude
Un atacante que envenene los datos de entrenamiento de un sistema antifraude bancario podría hacer que el modelo ignore transacciones fraudulentas que compartan ciertas características. El sistema seguiría detectando la mayoría del fraude de manera efectiva, pero pasaría por alto las transacciones del atacante.
Vehículos Autónomos
Investigadores han demostrado que es posible envenenar modelos de reconocimiento de señales de tráfico para que interpreten señales de STOP como límites de velocidad cuando se aplica un patrón específico. En un vehículo autónomo, esto podría tener consecuencias fatales.
Modelos de Lenguaje (LLMs)
El envenenamiento de modelos de lenguaje grandes es particularmente preocupante. Dado que estos modelos se entrenan con datos masivos de internet, un atacante podría insertar información falsa o sesgada en fuentes de datos utilizadas para el entrenamiento. Los chatbots y asistentes basados en LLMs envenenados podrían proporcionar información incorrecta de manera convincente o exhibir sesgos diseñados.
Sistemas de Filtrado de Contenido
Los filtros de contenido basados en ML pueden ser envenenados para permitir que contenido específico evada la detección. Esto es particularmente peligroso para filtros de spam, moderación de contenido en redes sociales y sistemas de detección de desinformación.
Sistemas de Recomendación
Los sistemas de recomendación de plataformas de comercio electrónico y redes sociales pueden ser manipulados mediante envenenamiento para promover productos específicos, contenido de propaganda o desinformación.
Técnicas de Detección
Detectar el envenenamiento de datos es un desafío significativo, pero existen varias técnicas prometedoras:
- Análisis estadístico de datasets: Buscar anomalías estadísticas en los datos de entrenamiento, como clusters inesperados, distribuciones inusuales o correlaciones anómalas entre features.
- Spectral signatures: Técnicas basadas en el análisis espectral de las representaciones internas del modelo pueden identificar patrones asociados a backdoors, incluso cuando los datos envenenados son una fracción mínima del dataset total.
- Neural cleanse: Métodos que intentan identificar y revertir los disparadores de backdoor analizando la sensibilidad del modelo a perturbaciones específicas.
- Differential testing: Entrenar múltiples modelos con subconjuntos diferentes de datos y comparar sus predicciones. Las discrepancias pueden indicar la presencia de datos envenenados.
- Provenance tracking: Mantener un registro detallado de la procedencia de cada dato utilizado en el entrenamiento, permitiendo auditar y rastrear datos sospechosos.
Estrategias de Prevención
Seguridad del Pipeline de Datos
Proteger todo el pipeline de datos desde la recopilación hasta el entrenamiento es fundamental. Esto incluye controles de acceso estrictos a repositorios de datos, validación criptográfica de la integridad de los datasets, monitorización de cambios inesperados en los datos de entrenamiento, y segregación de entornos de entrenamiento.
Técnicas de Entrenamiento Robustas
Implementar técnicas de machine learning que sean inherentemente más resistentes al envenenamiento, como entrenamiento con sanitización de datos, aprendizaje federado con agregación robusta, entrenamiento adversarial que exponga al modelo a datos manipulados conocidos, y ensemble methods que diversifiquen las fuentes de datos.
Monitorización Continua
Monitorizar el rendimiento del modelo en producción para detectar degradación inesperada, cambios en distribuciones de predicciones, y anomalías en casos específicos que podrían indicar activación de backdoors.
Implicaciones Regulatorias
El EU AI Act aborda directamente esta amenaza al exigir que los sistemas de IA de alto riesgo implementen medidas de robustez contra ataques adversariales, incluyendo el envenenamiento de datos. Las organizaciones que desplieguen IA en ámbitos regulados deberán demostrar que han implementado controles adecuados contra esta amenaza.
Conclusión
El envenenamiento de datos es una amenaza que crece en paralelo con la adopción de IA. A diferencia de las vulnerabilidades de software que pueden parchearse, un modelo envenenado puede requerir re-entrenamiento completo con datos verificados, un proceso costoso y disruptivo. La seguridad de la IA comienza con la seguridad de los datos, y las organizaciones que integran IA en procesos críticos deben tratar la integridad de sus datos de entrenamiento con la misma prioridad que la confidencialidad de sus datos más sensibles.
Sobre el Autor
Sofía Ramírez Luna – Criptógrafa e investigadora en seguridad de protocolos. Doctora en Ciencias de la Computación con especialización en seguridad de sistemas de IA y ML.
Última actualización: 2026 | Contenido verificado por expertos en ciberseguridad

El envenenamiento de datos es probablemente la amenaza más subestimada en IA. Si no puedes confiar en tus datos de entrenamiento, no puedes confiar en tu modelo.