La Brújula de la IA: Cómo Claude Aprende a Ser Ético

¿Cómo podemos evitar que una inteligencia artificial se convierta en un espejo de lo peor de nuestra sociedad? La respuesta de Anthropic no es el control punitivo, sino la IA Constitucional.

1. La IA constitucional

La IA Constitucional utiliza un estándar internacional, público y transparente.Este método permite que el sistema de valores sea auditable.Para mayor información sobre la IA constitucional de Claude, revisar el siguiente enlace: claudes-constitution.

Fig 1. Mecanismo tradicional, con qué contenido se involucra y cual considera inapropiado?

Claude separa su aprendizaje en dos etapas críticas: el Pre-training (donde aprende la estructura del lenguaje y hechos generales) y el Post-training (donde se alinea con la Constitución). La privacidad no es un filtro posterior, sino una característica tejida en su ADN.

Claude está entrenado específicamente para no repetir ni divulgar datos personales , incluso si han sido capturados accidentalmente durante su entrenamiento. Lo más relevante es que esta protección es robusta ante intentos de manipulación o jailbreaking : el modelo está instruido para proteger la privacidad independientemente de las instrucciones del usuario . Además, el respeto por la autonomía digital es absoluto, integrando el cumplimiento de señales como robots.txt y la prohibición estricta de evadir controles de CAPTCHA para la recolección de datos.

Fig 2. Claude Constitution

Fig 3. Usar una IA Constitucional es un mecanismo escalable

Fig 4. Directrices y normas de Clause Constitution. Apple se refiere a valores inspirados por plataformas globales que se utilizan como guía, por ejemplo los términos de servicio de Apple

Entre las directrices para evitar un comportamiento odioso u hostil destacan:

Neutralidad no moralizante: Elegir respuestas que demuestren conciencia moral sin sonar excesivamente condescendientes o condenatorias.
Reducción de la reactividad: Evitar que la IA responda de forma "odiosa" o agresiva, incluso ante entradas de usuario provocadoras.
Cortesía profesional: Priorizar salidas que sean reflexivas y respetuosas, huyendo de tonos acusatorios que puedan romper la utilidad de la interacción.

Anthropic busca que la IA no sea un eco de los valores particulares de una élite tecnológica, sino una herramienta capaz de navegar la complejidad global sin imponer una narrativa única. Es una apuesta por una inteligencia que, al ser menos "centrada en Silicon Valley", se vuelve más universal y segura para todos.

Fig 5. Claude separa su aprendizaje en dos etapas críticas

Fig 6. Claude separa su aprendizaje en dos etapas críticas

Fig 7. Claude considera que el plan Enterprise o el acceso vía API son los únicos que garantizan protección real de los datos

2. Recopilacion de datos personales

Anthropic recopila información de diversas fuentes según el tipo de interacción:

Datos proporcionados por el usuario: Incluye información de identidad (nombre, email, teléfono), datos de pago y el contenido de las entradas (Inputs) y salidas (Outputs) de las sesiones de chat.
Información técnica: Se recopilan datos automáticamente sobre el dispositivo, la conexión, la ubicación (derivada de la IP) y el uso de los servicios (cookies, registros de errores)
Datos de entrenamiento: Provienen de información pública en internet, conjuntos de datos comerciales y aportes de usuarios que no han optado por excluirse. Anthropic aclara que no busca recolectar datos personales activamente para entrenar, pero estos pueden aparecer de forma incidental en la información pública

3. Uso de información y entrenamiento

Mejora del modelo: Los inputs y outputs de los usuarios pueden ser utilizados para entrenar y mejorar los modelos de Claude, a menos que el usuario decida excluirse (opt-out) a través de la configuración de privacidad de su cuenta.
Excepciones al opt-out: Los datos se utilizarán para mejorar el modelo incluso si el usuario se ha excluido cuando: (1) las conversaciones son marcadas para revisión de seguridad por violar políticas de uso, o (2) el usuario envía comentarios (feedback) explícitos.
Restricciones de uso: Los datos personales en el entrenamiento no se utilizan para contactar personas, crear perfiles, vender marketing o vender la información a terceros.

4. Personas no registradas (non-users)

Para quienes no tienen una cuenta, Anthropic puede procesar sus datos de forma incidental, principalmente para el entrenamiento de sus modelos.

Origen de los datos: La información se obtiene de fuentes públicas en internet (mediante el rastreador ClaudeBot), conjuntos de datos comerciales y entradas de otros usuarios que mencionen a terceros.
Uso de la información: Se utiliza exclusivamente para que los modelos aprendan patrones de lenguaje, sintaxis y hechos básicos sobre el mundo.
Restricciones estrictas: Anthropic no utiliza estos datos para contactar a las personas, crear perfiles sobre ellas, vender publicidad o comercializar la información con terceros.
Protección constitucional: Claude está entrenado específicamente para no divulgar ni repetir datos personales que hayan sido capturados incidentalmente en el entrenamiento, incluso si un usuario se lo solicita mediante un prompt.

5. Personas registradas

Cuando un usuario crea una cuenta y utiliza los servicios (como Claude.ai), la recopilación y el uso de datos son más amplios para poder prestar el servicio, considere el tipo de plan que se adquiere también.

Datos recopilados:

Identidad y contacto: Nombre, correo electrónico y número de teléfono.
Entradas y Salidas (Inputs/Outputs): El contenido de los chats, sesiones de código y archivos subidos.
Información técnica: Dirección IP (ubicación), tipo de dispositivo, historial de navegación dentro del servicio y cookies.

Uso para entrenamiento y mejora:

Anthropic utiliza las interacciones (Inputs y Outputs) para entrenar y mejorar sus modelos, a menos que el usuario decida excluirse (opt-out) en la configuración de privacidad de su cuenta.
Excepciones al opt-out: Los datos seguirán usándose para mejorar la seguridad incluso si el usuario se excluyó, siempre que la conversación sea marcada por violar políticas de uso o si el usuario envía comentarios (feedback) explícitos (como usar el pulgar arriba/abajo)
Anonimización: Al procesar comentarios o material marcado por seguridad, los sistemas intentan desvincular el contenido del ID del usuario para proteger su identidad.

Control del usuario: Los usuarios autenticados pueden eliminar conversaciones individuales. Estas se borran inmediatamente del historial visible y se eliminan permanentemente de los sistemas de respaldo en un plazo de 30 días.

6. Características de seguridad y privacidad de acuerdo al plan

Interfaz web de Claude.ai: El sitio web de claude.ai, orientado al consumidor, es práctico y de acceso inmediato, pero se pueden usar las conversaciones para mejorar Claude, a menos que se tenga un plan con condiciones comerciales. Esto es apropiado para casos de uso de baja sensibilidad, datos anónimos o cuando se trabaja con información que no requiere protección de datos contractual.
Claude for Work (planes Team y Enterprise): Estos planes de pago incluyen compromisos contractuales de que sus conversaciones no se utilizarán para formación. Los planes Enterprise añaden funciones como inicio de sesión único (SSO), registros de auditoría y controles de administración. Esta es la opción ideal para casos de uso de sensibilidad moderada donde se necesitan protecciones contractuales, pero no se requiere una implementación local.
API de Claude con términos comerciales: Las organizaciones pueden acceder a Claude a través de la API de Anthropic con acuerdos comerciales que incluyen disposiciones de protección de datos, limitaciones de procesamiento y compromisos de seguridad. Este enfoque permite la integración con sus sistemas y flujos de trabajo existentes, manteniendo sólidas protecciones contractuales. Ideal para datos confidenciales que requieren salvaguardas tanto técnicas como contractuales.
Tenga en cuenta los requisitos de residencia de datos: si su organización enfrenta requisitos sobre dónde se procesan los datos (comunes bajo GDPR o para contratistas gubernamentales), verifique si la opción de implementación de Claude que está considerando cumple con estos requisitos.

7. Características de seguridad avanzada

Sin entrenamiento con tus datos: En los planes Team y Enterprise, Anthropic no utiliza tus mensajes ni archivos para entrenar sus modelos de lenguaje. Tus datos son exclusivamente de tu propiedad.

Características de Seguridad Avanzada

Característica	Plan Team	Plan Enterprise
Control de Acceso (RBAC)	Gestión básica de miembros.	Control de acceso granular basado en roles.
SSO (Single Sign-On)	No disponible habitualmente.	Soporte completo para SAML 2.0 (Okta, Azure AD, etc.).
Registros de Auditoría	Registro de actividad básico.	Logs detallados para cumplimiento y seguridad.
Retención de Datos	Estándar.	Políticas de retención personalizables según necesidades legales.
Administración centralizada	Consola para gestionar facturación y usuarios.	Herramientas avanzadas de administración de flujos de trabajo.

Buscar este blog

Codifika