¿Como funciona la IA?

 

How AI Works

Resumen obtenido del libro: The AI Pocket Book, Emmanuel Maggiori, editorial Manning Publications, Capitulo 1 - How AI Works

1. Introducción: El Autocompletado "Mágico"

Cuando interactúas con un Modelo de Lenguaje Extenso (LLM) como ChatGPT, puede parecer que estás conversando con una mente consciente. Sin embargo, detrás de esa fluidez se esconde un mecanismo fascinante pero puramente estadístico. 


La IA es, en realidad, un sistema diseñado para una sola tarea: adivinar qué pieza de información sigue a la anterior.Imagina que alguien te dice:  "La Torre..." . Instantáneamente, tu cerebro completa la frase con la palabra  "Eiffel" . Esta es la esencia de un LLM. Podemos verlo como un sistema de autocompletado extremadamente sofisticado que analiza tu mensaje (el  prompt ) y calcula qué palabra tiene la mayor probabilidad de aparecer a continuación."En esencia, un LLM es un programa estadístico de predicción. Su función no es 'pensar' en el sentido humano, sino procesar secuencias de datos para determinar cuál es el elemento más lógico que debe aparecer a continuación."


Para entender cómo logra adivinar con tanta precisión, primero debemos descubrir cómo la IA "lee" nuestro mensaje, transformando letras en un lenguaje que las computadoras adoran: los números.


Fig 1. El motor fundamental: Predicción de la siguiente palabra




2. La trampa de los tokens: El "impuesto lingüístico"

El primer error común es creer que la IA lee letras o palabras. Antes de que el modelo procese nada, el  Wrapper  (la aplicación que rodea al modelo) subdivide el texto en  tokens : unidades semánticas que pueden ser palabras completas o fragmentos de estas.



Fig 2. El motor fundamental: Predicción de la siguiente palabra


Aquí reside el misterio de "strawberry". Para el modelo, esta palabra no es una secuencia de diez letras, sino que suele procesarse como un solo bloque o token. Al no tener visibilidad de los caracteres individuales, contar cuántas veces aparece la "r" no es un ejercicio de observación, sino una inferencia estadística que a menudo falla. Además, existe un sesgo de diseño: los vocabularios se optimizan mediante un análisis de los patrones más comunes en internet, donde predomina el inglés.



Fig 3. Tokens: Como leen las máquinas y representación vectorial simplificada



El uso de tokens en lugar de caracteres individuales permite que el LLM ahorre espacio y procese información de manera más eficiente, permitiéndole manejar palabras que no están en su diccionario mediante la combinación de fragmentos comunes.Esto genera una desigualdad técnica. Idiomas como el telugu o el español requieren más tokens para expresar la misma idea que el inglés. Por ejemplo, aunque se han hecho mejoras en modelos como GPT-4o, un texto en telugu todavía puede requerir el  doble de tokens  que su contraparte inglesa, lo que hace que su procesamiento sea más lento y costoso.


Debido a que los modelos operan con tokens y no letras, presentan dificultades en tareas como contar caracteres (el famoso caso de "strawberry"). Si el token es "berry", el modelo no analiza las letras internas a menos que el  wrapper  intervenga.Esta representación estática de los tokens es el insumo básico que la arquitectura del modelo transformará en una interpretación dinámica y contextual.



3. El "Wrapper": El titiritero detrás de la interfaz

Un LLM "desnudo" es un programa estático, congelado en el momento en que termina su entrenamiento. No sabe qué día es hoy ni tiene acceso a la web. Lo que percibimos como su "personalidad" es obra del  Wrapper , el software intermediario que gestiona el proceso.


El Wrapper utiliza trucos de ingeniería para expandir las capacidades del modelo. Uno de ellos es el  System Prompt , un mensaje secreto que se inserta antes de tu consulta con instrucciones como "Eres ChatGPT" o "La fecha actual es 30 de mayo de 2024". Otro pilar es la  RAG (Generación Aumentada por Recuperación) : cuando la IA "busca en internet", el Wrapper extrae palabras clave de tu pregunta, localiza documentos relevantes y los "pega" discretamente dentro de la ventana de contexto (que en modelos como GPT-4o alcanza los 128,000 tokens) para que el modelo los analice.


Las tres funciones críticas del Wrapper son:

  • Generar frases completas:  Hace que el modelo "muerda su propia cola", re-inyectando cada token generado como parte del nuevo prompt hasta completar la idea.

  • Dar respuestas conversacionales:  Inserta códigos especiales para delimitar turnos y mantener la coherencia del diálogo.

  • Gestionar datos en tiempo real:  Introduce información externa (clima, noticias o documentos internos) directamente en la ventana de contexto actual.



4. El "Espacio de Significado": Coordenadas para el pensamiento

Para que una máquina trabaje con conceptos, debe convertirlos en números mediante  Embeddings  (vectores numéricos). Cada token se mapea en un espacio multidimensional donde su ubicación define su significado.


Imagina que el token  "perro"  se define por sus coordenadas en diversas dimensiones temáticas. Según la arquitectura técnica de estos modelos, los valores se verían así:


  • Animal:  3 (Valor alto)

  • Gato:  -1 (Concepto opuesto)

  • Grande:  0 (Neutral)

  • Temible (Scary):  2 (Moderado)

  • Cuatro patas:  3 (Valor alto)


Fig 4. Tokens y sus dimensiones (embeddings)



En este "espacio de significado", las palabras similares están físicamente cerca (como "anaconda" y "serpiente"). Lo asombroso es que los humanos no diseñamos estas dimensiones; la máquina las organiza por sí misma para maximizar su capacidad de predicción. Modelos modernos como Llama 3 utilizan espacios de hasta  16,384 dimensiones , creando una red de relaciones tan compleja que es matemáticamente eficiente pero humanamente inexplicable.


Un embedding es un vector numérico que ubica el concepto en un mapa multidimensional. La herramienta matemática fundamental aquí es el  Producto Punto (Dot Product) , que calcula la "distancia firmada" entre conceptos:

  • Resultado Positivo:  Conceptos relacionados (ej. "anaconda" y "snake").

  • Resultado Cero:  Conceptos no relacionados.

  • Resultado Negativo:  Conceptos opuestos (ej. "grande" vs. "pequeño").Esta capacidad de calcular la cercanía semántica es el motor real detrás de la búsqueda corporativa moderna y los sistemas RAG eficientes.



Fig 5. Embeddings: Convirtiendo palabras a coordenadas


4.1 Transformer

La arquitectura Transformer es el motor estratégico que permite la desambiguación semántica en tiempo real. Su superioridad reside en su capacidad para procesar la relación entre palabras sin importar su distancia en el texto.


Evaluación de la Atención y el Feed-Forward  A diferencia de las arquitecturas antiguas como  LSTM (Long Short-Term Memory) , que "comprimían" (squash) todo el contexto previo en un único vector —perdiendo información crítica en el proceso—, los Transformers procesan cada token individualmente manteniendo su integridad.


  1. Mecanismo de Atención:  Permite que el modelo determine qué tokens del contexto son relevantes para el actual. Para entender la palabra "banco", el mecanismo de atención asigna un peso mayor a "dinero" que a "parque".

  2. Paso de Feed-Forward:  Es aquí donde ocurre la magia técnica. Tras calcular la atención, los vectores pasan por una capa de  feed-forward  donde la información de los tokens circundantes "se traspasa" (rubbing off), actualizando realmente el embedding para que pase de ser una representación genérica a una contextualizada.

  3. Escalabilidad:  Esta arquitectura permite hitos como GPT-3, con sus  175 mil millones de parámetros , estableciendo el estándar de potencia bruta que hoy consumimos.Modelos como GPT-3, con sus  96 capas , permiten que diferentes segmentos del modelo se especialicen en temas específicos (segmentos zoológicos vs. botánicos), permitiendo una representación del significado extremadamente rica antes de intentar predecir el siguiente token.




4.2 Ventanas de Contexto


Gestión de Ventanas de Contexto  La ventana de contexto define el límite de memoria operativa del modelo. Para el procesamiento de documentos corporativos extensos, la elección del modelo es una decisión de arquitectura de datos:




Modelo

Ventana de contexto 

(tokens)

Implicación empresarial

GTP-3

2048

Referencia histórica; limitado a correos breves.

GTP-4o

128 000

Capaz de procesar reportes anuales o contratos complejos.

Gemini 1.5 Pro

1 000 000

Análisis de bases de código completas o bibliotecas técnicas.


Tab 1. Esta estructura define el potencial del modelo, pero es el ciclo de vida del entrenamiento lo que garantiza que este potencial se traduzca en una utilidad segura.


Fig 6. La arquitectura transformer: El corazón del LLM



Fig 7. Mecanismo de atención: Desambiguación por Contexto 



Etapa

Formato del dato

Lo que representa

Entrada

Texto Humano

La idea original del usuario

Tokenización

IDs (Números enteros)

La “dirección” en el diccionario del modelo

Embeddings

Vectores (Floats/Decimales)

El significado puro y sus rasgos (animal, grande, etc.)

Contextualización

Vectores ajustados

El significado específico dentro de esa frase exacta


Tab 2. Resumen de la transformación





5. Diferentes tipos de entrenamiento

El aprendizaje automático (machine learning) se divide en diferentes paradigmas según cómo se procesen los datos y cómo se formule la tarea para que la computadora aprenda.


5.1 Aprendizaje Supervisado (Supervised Learning)


En este modelo, se proporciona a la computadora una gran cantidad de ejemplos de cómo realizar la tarea deseada.

Funcionamiento: Cada ejemplo consiste en un par de entrada y etiqueta (el "resultado correcto" que queremos que el modelo produzca). Por ejemplo, para crear un modelo que categorice imágenes, se contrata a personas para que etiqueten manualmente miles de fotos indicando si son una "fresa", un "avión" o un "perro".

Desafío: El etiquetado de datos suele ser un proceso manual costoso y lento, convirtiéndo a menudo en un cuello de botella. En casos desafortunados, el modelo memoriza ejemplos específicos de entrenamiento en vez de aprender un proceso general para ejecutar una tarea, por lo que no funcionara de manera adecuada en datos no utilizados durante su entrenamiento, a esto se le conoce como overfitting. En otros escenarios, el modelo puede aprender un proceso que es demasiado simple, por lo que no trabaja de manera efectiva en los datos utilizados para su entrenamiento o en otros datos, a esto se le conoce como underfitting.

Evaluación: A diferencia de otros métodos, tiene una medida clara de éxito, ya que se puede verificar directamente si la predicción del modelo coincide con la etiqueta real.






Fig 8. Aprendizaje supervisado, se proporcionan features o características y la respuesta o label


5.2 Aprendizaje No Supervisado (Unsupervised Learning)


En este paradigma, no se suministra a la máquina ejemplos de la "salida correcta", ya que la tarea no tiene una única respuesta verdadera.

Objetivo: Se utiliza principalmente para explorar datos y encontrar patrones ocultos en ellos.

Técnica principal: El ejemplo más común es el agrupamiento (clustering), donde se intenta juntar puntos de datos similares, como agrupar pacientes según sus registros médicos para identificar perfiles representativos.

Limitación: Es difícil medir el éxito de manera objetiva; a menudo la validez de los resultados es una cuestión de opinión o se basa en argumentos heurísticos, lo que puede generar frustración en los ingenieros al no haber un "modelo correcto" único.


El riesgo del mal uso:  Un error común es intentar usar aprendizaje no supervisado cuando se necesita uno supervisado.

  • Ejemplo fallido:  Un hospital intentó agrupar pacientes por síntomas (Clustering) para hacer triaje automáticamente. El sistema falló porque no tenía una "respuesta correcta" (etiqueta de gravedad) para guiar el diagnóstico; lo que realmente necesitaban era aprendizaje supervisado con registros médicos ya diagnosticados.


Fig 9. Aprendizaje no supervisado, se proporcionan features pero no la respuesta o label, el modelo predice el label en base a los features


5.3 Aprendizaje Autosupervisado (Self-supervised Learning)


Es una técnica que permite generar una cantidad masiva de ejemplos etiquetados automáticamente a partir de datos existentes, sin intervención humana manual. Solo funciona cuando podemos formular una tarea como aprendizaje para reconstruir una entrada corrupta.


El "truco" de los LLMs: En el caso de los modelos de lenguaje (LLMs), se toma una frase de internet (como "La Torre Eiffel está en París") y se corrompe artificialmente eliminando la última palabra. La tarea del modelo es reconstruir esa entrada adivinando el token faltante ("París").

Naturaleza mixta: Aunque es técnicamente supervisado porque se basa en ejemplos de entrada/salida, se le llama "autosupervisado" porque las etiquetas se generan solas a partir de la fuente de datos original.

Importancia: Este enfoque es la razón principal del éxito de los LLMs modernos, ya que permite entrenarlos con instantáneas de casi todo el internet público sin necesidad de etiquetado manual previo.


5.4 Aprendizaje por refuerzo (Reinforcement Learning o RL)

Es un paradigma de aprendizaje automático en el que una computadora aprende mediante un proceso de ensayo y error. A diferencia del aprendizaje supervisado, donde se dan ejemplos directos, aquí el algoritmo toma acciones aleatorias, las prueba y aprende de la retroalimentación (feedback) obtenida posteriormente.


Los aspectos clave de este método según las fuentes son:

  • Exploración vs. Explotación: Uno de los mayores retos es equilibrar estos dos conceptos. La exploración ocurre cuando el algoritmo prueba acciones nuevas para descubrir qué funciona; la explotación es cuando utiliza el conocimiento ya adquirido para obtener los mejores resultados posibles.

  • Naturaleza del aprendizaje: Se considera una forma de aprender más "derrochadora" o ineficiente en términos de recursos si se compara con el aprendizaje supervisado, y su uso en entornos comerciales suele ser menos común. Un ejemplo clásico es un sistema de publicidad que muestra anuncios aleatorios para descubrir los intereses de un usuario y luego se enfoca en los que generaron clics.

  • Aplicación en LLMs (RLHF): Con el auge de modelos como ChatGPT, ha ganado popularidad una variante llamada Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). Este proceso se utiliza para "domesticar" y refinar el modelo después de su entrenamiento inicial, alineándolo mejor con lo que los humanos consideran respuestas seguras y útiles


5.5 Relación con los LLMs modernos (como ChatGPT)


Es importante notar que los modelos actuales no usan solo un método. El entrenamiento suele seguir estas etapas:


1. Entrenamiento inicial: Se usa el aprendizaje autosupervisado con volúmenes masivos de texto de internet para que el modelo aprenda la estructura del lenguaje y a adivinar la siguiente palabra.

2. Afinamiento (Fine-tuning): Se emplea aprendizaje supervisado con miles de ejemplos escritos por humanos para "domesticar" al modelo y que aprenda a seguir instrucciones específicas y responder de forma segura.

3. Refuerzo (RLHF): Se utiliza el aprendizaje por refuerzo con retroalimentación humana, donde personas clasifican varias respuestas del modelo por orden de preferencia para mejorar su alineación con lo que los usuarios consideran una "buena respuesta".


6. Deep Learning o aprendizaje profundo

En machine learning, comúnmente creamos un software dedicado para extraer features o características representativas de una entrada, por ejemplo, podemos tener un algoritmo que permita extraer palabras claves de un texto o detectar líneas en una imagen. Después un modelo de Machine Learning será usado para realizar predicciones de estos features:


Raw input - Feature Engineering - Model - Prediction


En deep learning, el cual es un tipo de machine learning, el modelo procesa datos en bruto, como tokens o una imagen no procesada. El modelo por sí mismo aprende y obtiene los features de la entrada de datos, para lo cual el modelo usualmente contiene múltiples capas de procesamiento apiladas una sobre otra. En cada capa el modelo realiza transformaciones, por ejemplo, en el análisis de imágenes, las primeras capas detectan líneas simples, mientras que las capas más profundas pueden identificar patrones complejos como “bigotes” y finalmente un “gato” completo.

Raw input - Model - Prediction


El Deep Learning utiliza diferentes "plantillas" o arquitecturas según la tarea:


  • Transformers: Es la arquitectura actual para el procesamiento de texto y es la base de los LLMs como ChatGPT.

  • Redes Neuronales Convolucionales (CNN): Es la arquitectura predilecta para procesar imágenes, audio y video.

  • Modelos Multimodales: Combinan ambas (Transformers y CNN) para tareas como generar imágenes a partir de descripciones de texto.


Fig 10. Aprendizaje profundo, formado por diferentes capas, la input layer recibe los features o características, la output layer genera la predicción y las capas hidden (ocultas) que consisten de una o más neuronas. Una red de aprendizaje profundo puede contener más de una capa oculta



7. Los pilares del entrenamiento de IA

A diferencia de la programación tradicional, donde un ingeniero dicta instrucciones paso a paso, el Aprendizaje Automático (Machine Learning) se asemeja a una estructura con "espacios en blanco" que la máquina debe completar. Estos espacios se denominan  parámetros . Para dimensionar la escala, un modelo como GPT-3 posee la asombrosa cifra de  175 mil millones de parámetros , cada uno de los cuales debe ajustarse para que el sistema funcione.Desde una perspectiva pedagógica, el proceso se divide en dos fases:


  • Arquitectura:  El diseño de la solución; una plantilla o "esqueleto" de los pasos que seguirá el programa (como la arquitectura  Transformer ), contiene una serie de parámetros en blanco. 

  • Entrenamiento (Aprendizaje):  El proceso de "rellenar los blancos". Aquí es donde entra en juego el algoritmo de  Descenso de Gradiente Estocástico (SGD) .La Analogía del Optometrista:  Imagine que está en una consulta y el médico cambia ligeramente los cristales de sus gafas preguntando: "¿Ve mejor así o así?". El entrenamiento es similar: el algoritmo varía levemente los parámetros (el gradiente) para ver si el error del modelo disminuye. Se llama "estocástico" porque, para ganar velocidad, el médico solo prueba con una pequeña muestra de pacientes (un  batch ) en lugar de con toda la población antes de decidir el siguiente ajuste.

    1. Inicialización y el concepto de "Batch" - Al comenzar, todos los parámetros internos del modelo se inicializan con valores aleatorios, lo que hace que la primera versión del modelo sea completamente inútil. El algoritmo selecciona entonces un pequeño número de ejemplos de entrenamiento, denominados batch (lote) o mini-batch, para realizar los cálculos

    2. El Gradiente y el ajuste de parámetros - En términos matemáticos, el algoritmo calcula el gradiente de la "pérdida" (loss), que es una medida de cuánto se equivoca el modelo en ese lote específico. El algoritmo "mueve" un poco los parámetros para encontrar una dirección de cambio que mejore el rendimiento. Se denomina "estocástico" porque estima la dirección de mejora basándose solo en una muestra (batch) y no en la totalidad de los datos disponibles.

    3. Epochs y repetición - Este procedimiento se repite lote tras lote. Cuando el algoritmo completa una pasada por todos los datos de entrenamiento, se dice que ha cumplido un epoch. El entrenamiento de modelos complejos suele requerir múltiples epochs; por ejemplo, se menciona que OpenAI llegó a entrenar un modelo durante 100 epochs, un proceso que consume días de cómputo intensivo en múltiples GPUs

    4. Desafíos y Efectividad - Aunque el SGD es una herramienta poderosa, presenta ciertos límites y características particulares:

      • Mínimos locales: Existe el riesgo de que el modelo se quede "atrapado" en un mínimo local, que es una solución aceptable pero no la mejor posible (mínimo global). Encontrar la configuración perfecta de parámetros es tan difícil como buscar una aguja en un pajar, pero la razón por la cual esto funciona 

      • Importancia de la arquitectura: El SGD es un proceso "salvaje", pero funciona porque la arquitectura del modelo (como el mecanismo de atención en los Transformers) está diseñada específicamente para guiar los parámetros en la dirección correcta.

      • Entrenamiento vs. Inferencia: Es importante distinguir el tiempo de entrenamiento (lento y costoso donde se usa SGD) del tiempo de inferencia, que es cuando el modelo ya terminado se utiliza para generar respuestas de forma rápida.


7.1 El Motor de Autocompletado: Aprendizaje Autosupervisado ( Self-Supervised Learning


7.1.1 Fase 1: Pre-entrenamiento (Lectura Masiva)


Este es el pilar fundamental donde la IA "lee la biblioteca del mundo" (el internet público). Aunque se comercializan como modelos "generativos", técnicamente los LLMs son modelos  discriminativos : su función es calcular la probabilidad de una etiqueta dado un input, expresado matemáticamente como P(Etiqueta | Input) . Su objetivo es predecir el siguiente fragmento de información o  token.


Fig 11. Fase 1: Pre-entrenamiento (Lectura Masiva)


Ejemplo de reconstrucción de datos (Ground Truth)


Input Corrupto (Entrada)

Label (Etiqueta de autocompletado/Ground Truth)

“The Eiffel”

“Tower”

“The Eiffel Tower is in ”

“Paris”

“Better safe than”

“sorry”


Tab 3. Este método otorga "conocimiento" masivo, pero no enseña modales ni obediencia; es simplemente un autocompletado avanzado que requiere un refinamiento más humano.


7.2 La Escuela de los Humanos: Aprendizaje Supervisado ( Supervised Learning )

Fase 2


En esta fase, la IA entra en un "salón de clases". Aquí, humanos expertos proporcionan ejemplos directos de  Entrada (Input)  y la  Respuesta Correcta (Label) . El objetivo principal es la  generalización : que la IA aprenda el proceso lógico para resolver problemas nuevos, evitando el  overfitting  (cuando la IA simplemente memoriza los ejemplos de entrenamiento y falla ante datos que no ha visto antes).


Se utilizan ejemplos claros como el par  Input:  "Better safe than" /  Label:  "sorry" para establecer una relación de confianza en la respuesta.


Dato Clave:  Este refinamiento es manual y costoso. OpenAI, por ejemplo, ha empleado ejércitos de trabajadores en países como Kenia (con salarios de menos de 2 dólares por hora) para etiquetar datos, clasificar contenido tóxico y escribir respuestas ideales que sirvan de guía "maestra" para el modelo.


Sin este ejército de supervisores, el modelo simplemente replicaría los sesgos y falsedades que encontró en su fase de pre-entrenamiento. El RLHF es el proceso que convierte un algoritmo salvaje en un asistente corporativo.


Fig 12. Fase 2: Fine-Tuning y RLHF (Domesticando al modelo)



7.3 El Arte de Domar a la IA: Aprendizaje por Refuerzo con Feedback Humano (RLHF)


Incluso con ejemplos, la IA puede desviarse. El  RLHF  es el proceso de "alineación" para asegurar que el modelo haga lo que realmente queremos. La pieza clave aquí es el  Modelo de Recompensa , un "juez digital" (otro modelo de ML supervisado) entrenado para imitar las preferencias humanas.El proceso de  InstructGPT  sigue estos 4 pasos cruciales:

  1. Entrenamiento Base:  Aprendizaje autosupervisado masivo con datos de internet.

  2. Generación de Ejemplos:  Humanos crean ejemplos de prompts y respuestas deseadas (SFT).

  3. Entrenamiento del Modelo de Recompensa:  Los humanos clasifican varias respuestas de la IA de "mejor" a "peor". Estos rankings entrenan al "juez digital".

  4. Refinamiento por Refuerzo:  La IA principal genera respuestas y el Modelo de Recompensa le otorga una "puntuación". La IA ajusta sus parámetros para maximizar esa recompensa.







Comparativa de paradigmas



Paradigma

Uso de Datos

Objetivo principal

El factor Humano

Autosupervisado

Internet masivo

Predecir el siguiente token

Bajo

Supervisado

Pares Input/Label

Seguir instrucciones y generalizar

Alto (expertos y etiquetas)

RLHF (Refuerzo)

Rankings humanos

Alinear la IA con valores y preferencias

Muy alto (juez de calidad)

No Supervisado

Datos crudos

Encontrar agrupaciones (Clustering)

Bajo (solo interpretacion)


Tab 4. Comparativa de paradigmas


8. No hay "almuerzo gratis": La IA es un rompecabezas de soluciones

En computación, el  "No Free Lunch Theorem"  establece que no existe una única arquitectura óptima para todos los problemas. La IA actual no es una inteligencia general, sino una combinación creativa de arquitecturas especializadas:

  • Transformers:  La arquitectura clave para el texto, diseñada específicamente para contextualizar palabras mediante mecanismos de atención.

  • CNN (Redes Neuronales Convolucionales):  La arquitectura ideal para el procesamiento visual, que utiliza filtros para detectar bordes y patrones en imágenes.

  • Cuando usamos una IA multimodal, estamos interactuando con un "patchwork" tecnológico. El progreso no proviene de un solo algoritmo universal, sino de saber combinar Transformers y CNNs para que el modelo pueda "ver" y "hablar" simultáneamente. Cada avance es una solución a medida, no un paso hacia una mente artificial todopoderosa.


Fig 13. Más allá del texto: Visión por computadora



Fig 14. Generación de imágenes: Modelos de difusión




Para las organizaciones, la estrategia ganadora no es buscar el "modelo único", sino integrar soluciones a medida donde los Transformers gestionen la semántica y otras arquitecturas especializadas gestionan la percepción, garantizando eficiencia de costos y máxima fidelidad operativa.



Fig 15. El viaje de un prompt





9. Recursos adicionales

  1. OpenAI Platform

  2. How to prompt ChatGPT to respond based on the language of the text

  3. How to call functions with chat models

  4. A simple guide to retrieval augmented generation

  5. A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models

  6. ChatGPT’s vocabulary

  7. OpenAI API Tokenizer

  8. The Llama 3 Herd of Models

  9. Get multimodal embeddings

  10. Attention Is All You Need

  11. Non reproducible outputs

  12. Reproducibility

  13. OpenAI gpt-2

  14. The Illustrated Transformer

  15. The Truth about imbalance data

  16. Training language models to follow instructions with human feedback

  17. OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic

  18. Improving Language Understanding by Generative Pre-Training

  19. Are LLMs not truly "generative"?

  20. Step Saver: Predicting Minimum Denoising Steps for Diffusion Model Image Generation

  21. Video generation models as world simulators

  22. Aligning language models to following instructions - InstructGPT


Comentarios

Entradas más populares de este blog

Comandos Linux básicos para un Oracle DBA

Instalación distribución Anaconda Python en Windows 10

Instalar VMware Workstation Player en Windows 10 x64