Nodalix — IA privada para PYMEs europeas

La semana pasada, en una reunión con un cliente del sector legal, el director de operaciones me dijo algo que resume perfectamente el problema: «Hemos estado usando ChatGPT para resumir contratos durante seis meses. Ayer un socio preguntó si eso implicaba un problema de confidencialidad. No supimos qué decirle.»

Si tu empresa está usando herramientas de IA en la nube pública para trabajar con datos de clientes, información financiera, contratos, estrategia o cualquier tipo de información confidencial, tienes un problema. Probablemente lo sabes. Lo que quizás no sabes es la magnitud real del problema.

Lo que nadie lee: los Términos de Servicio de las IA públicas

OpenAI, en sus Términos de Servicio para usuarios de la versión gratuita y muchas versiones de pago de ChatGPT, establece que puede usar las conversaciones para mejorar sus modelos. Google tiene políticas similares para Gemini en sus versiones base. Microsoft Copilot, en ciertas configuraciones corporativas, transmite datos a servidores en Estados Unidos.

¿Qué significa esto en la práctica? Cuando un empleado sube un contrato a ChatGPT para que lo resuma, cuando pega información de clientes para que la IA la analice, cuando describe en detalle los problemas internos de la empresa para obtener consejo... toda esa información puede ser procesada, almacenada y potencialmente usada para entrenar modelos que usarán otras empresas.

El incidente de Samsung

En 2023, empleados de Samsung Electronics filtraron accidentalmente código fuente confidencial al usar ChatGPT para depurar software. El código fue al sistema de OpenAI y potencialmente quedó disponible para entrenamiento. Samsung prohibió posteriormente el uso de ChatGPT en dispositivos de empresa. Tu PYME puede no tener el mismo peso mediático, pero el riesgo es idéntico.

Los tres vectores de riesgo para la PYME

Riesgo 1: Entrenamiento de modelos con tus datos

Los grandes modelos de IA necesitan cantidades masivas de datos para mantenerse actualizados y mejorar. Los datos que los usuarios envían son, en muchos casos, un recurso valioso. Aunque OpenAI y otros proveedores ofrecen opciones para «no usar tus datos en entrenamiento», estas opciones no siempre están activadas por defecto, no siempre son granulares, y en versiones gratuitas generalmente no están disponibles.

Riesgo 2: Brechas de seguridad en infraestructura de terceros

En marzo de 2023, OpenAI sufrió una brecha de seguridad que expuso información sobre las conversaciones de algunos usuarios. En la nube pública, tu empresa no tiene control sobre las medidas de seguridad del proveedor. Si sufren un ataque, tus datos están expuestos.

La concentración de datos sensibles de miles de empresas en unos pocos proveedores cloud los convierte en objetivos de alto valor para actores maliciosos. La pregunta no es si habrá más brechas, sino cuándo.

Riesgo 3: Incumplimiento regulatorio y sanciones GDPR

Este es el riesgo que más frecuentemente ignoramos, quizás porque sus consecuencias no son inmediatas. El Reglamento General de Protección de Datos (GDPR) de la Unión Europea es claro: los datos personales de ciudadanos europeos no pueden transferirse a países sin nivel adecuado de protección sin garantías suficientes.

Los servidores de OpenAI, Google y Microsoft están mayoritariamente en Estados Unidos. Las transferencias de datos están reguladas por acuerdos que pueden invalidarse (como ocurrió con el Privacy Shield en 2020). Muchas empresas están en situación de incumplimiento sin saberlo.

¿Qué dice realmente el GDPR sobre la IA en la nube?

El Artículo 28 del GDPR establece que cuando una empresa utiliza un «encargado del tratamiento» (un proveedor que procesa datos en su nombre), debe existir un contrato específico que garantice que ese encargado trata los datos solo según las instrucciones del responsable y aplica las medidas de seguridad adecuadas.

Los formularios de «Data Processing Agreement» que ofrecen los grandes proveedores cloud están diseñados para protegerlos legalmente a ellos, no a ti. Permiten amplias excepciones, son unilaterales y raramente ofrecen el nivel de control que requiere el GDPR en sectores sensibles.

Sanción máxima por incumplimiento grave del GDPR: 20 millones de euros o el 4% de la facturación global anual
En 2023, la AEPD española impuso sanciones por valor de 10,8 millones de euros
Las PYMEs son el objetivo creciente de las inspecciones: más vulnerables, menos preparadas
El sector legal, médico y financiero tiene obligaciones adicionales más allá del GDPR

La alternativa: soberanía de datos con IA local

La buena noticia es que existe una alternativa técnicamente madura que elimina todos estos riesgos sin sacrificar las capacidades de la IA. Se basa en tres principios: procesamiento local, infraestructura europea y arquitectura containerizada.

Infraestructura Hetzner en Europa

Hetzner Online es uno de los mayores proveedores de infraestructura cloud de Europa, con data centers en Alemania y Finlandia. Opera bajo jurisdicción alemana y europea, sometido íntegramente al GDPR. Sus servidores dedicados ofrecen un rendimiento comparable al de AWS o Azure a una fracción del coste, con la ventaja crítica de que tus datos nunca salen de la Unión Europea.

Docker: aislamiento y reproducibilidad

La containerización con Docker es la tecnología que hace posible desplegar sistemas de IA complejos de forma reproducible y aislada. Cada componente —la base de datos vectorial, el servidor MCP, el orquestador de agentes, los modelos de embedding— corre en su propio contenedor con sus propias dependencias. El resultado es un sistema que se puede actualizar, replicar y auditar con precisión.

pgvector: búsqueda semántica sin externalizar

La extensión pgvector de PostgreSQL permite almacenar y buscar vectores (las representaciones matemáticas del significado del texto) directamente en tu base de datos. Esto significa que puedes implementar un sistema de RAG (Retrieval-Augmented Generation) completo —que permite a la IA responder preguntas basándose en tus documentos— sin enviar nunca esos documentos a ninguna API externa.

El modelo de procesamiento

En nuestra arquitectura, las consultas de IA siguen este flujo: el usuario hace una pregunta → el sistema busca contexto relevante en la base de datos vectorial local (pgvector) → el contexto más el texto de la pregunta se envía al modelo de IA → el modelo responde. Los documentos y datos empresariales nunca salen de tu servidor. Solo el texto de la pregunta y el contexto relevante viajan al modelo.

Mejor aún: para casos de uso donde la privacidad es absolutamente crítica, podemos desplegar modelos de lenguaje open source (como Llama, Mistral o Phi) directamente en tu servidor. En ese caso, absolutamente nada sale de tu infraestructura.

El argumento de negocio más allá del compliance

La soberanía de datos no es solo una obligación legal: es una ventaja competitiva creciente. Los clientes, especialmente en B2B, son cada vez más conscientes de cómo se tratan sus datos. Poder decir «toda la IA que usamos procesa datos en servidores europeos bajo nuestra infraestructura propia» es un argumento de venta poderoso.

En el sector healthcare, legal y financiero, esta garantía ya está pasando de ser un diferenciador a ser un requisito. Las empresas que no puedan demostrar control sobre sus datos y los de sus clientes están siendo excluidas de licitaciones y contratos.

“La privacidad de datos no es un coste de compliance. Es una inversión en confianza, que es el activo más valioso en cualquier relación B2B.”

Empezar con el pie derecho

Si tu empresa ya está usando herramientas de IA en la nube pública con datos confidenciales, el primer paso no es el pánico: es el diagnóstico. ¿Qué datos se están enviando? ¿A qué proveedores? ¿Bajo qué condiciones contractuales?

El segundo paso es diseñar la arquitectura soberana: qué flujos se pueden mantener en cloud pública (aquellos que no involucran datos sensibles), cuáles deben migrar a infraestructura propia, y cómo hacer la transición sin interrumpir la operación.

No se trata de eliminar toda la nube pública. Se trata de saber exactamente qué va a dónde y tener control real sobre tus datos más sensibles.

Una conversación que vale la pena tener

Si no sabes con certeza dónde van los datos que tus empleados envían a herramientas de IA, tienes un problema de gobernanza. Una auditoría rápida puede revelarlo y, más importante, diseñar el mapa hacia una arquitectura donde tengas control completo.

Privacidad y Soberanía de Datos: El peligro de subir tu empresa a nubes públicas