El Nuevo Paper de DeepSeek: Menos Tokens, Más Precisión Visual

www.youtube.com

Resumen Breve

Este video resume un paper de DeepSeek sobre modelos multimodales que fue retirado, generando especulación sobre si reveló demasiada información. El paper aborda problemas de percepción y referencia en modelos multimodales, proponiendo el uso de "bounding boxes" y puntos para mejorar el razonamiento espacial y la precisión, a la vez que se logra una alta compresión. Se discuten las técnicas de pre-entrenamiento y fine-tuning utilizadas, así como las limitaciones del modelo.

El paper de DeepSeek sobre modelos multimodales fue retirado, generando especulación.
Propone el uso de "bounding boxes" y puntos para mejorar el razonamiento espacial y la precisión.
Se discuten las técnicas de pre-entrenamiento y fine-tuning utilizadas.

El paper que DeepSeek borró

Gabriel Merlo introduce el tema del video: un paper de investigación de DeepSeek que ha sido retirado de su cuenta de Hugging Face y del repositorio de GitHub. Merlo contactó al Project Lead de DeepSeek, quien confirmó la remoción del paper, pero aclaró que no está relacionada con la validez técnica del trabajo. Esto ha generado especulaciones sobre las razones detrás de la eliminación del paper.

Especulación: ¿revelaron demasiado?

Se discute la especulación en la industria de que DeepSeek pudo haber revelado demasiada información en el paper, lo que podría dar una ventaja competitiva a sus competidores. Se mencionan blogs que sugieren esta posibilidad, aunque no se confirma como la razón oficial de la remoción del paper.

El problema de contar en modelos multimodales

Se introduce el problema de contar objetos en imágenes como un caso de uso para ilustrar las dificultades de los modelos multimodales. Se muestra un ejemplo de una imagen con 25 personas y se compara la capacidad de un humano para contar correctamente con la de un modelo multimodal, que inicialmente da una respuesta incorrecta.

El gap de referencia

Se explica el concepto de "gap de referencia", donde los modelos tienen dificultades para referenciar objetos específicos en una imagen. Se muestra cómo un modelo de razonamiento puede responder correctamente a la pregunta de cuántas personas hay en la imagen, mientras que un modelo sin razonamiento falla. DeepSeek propone el uso de "bounding boxes" para solucionar este problema.

La solución: bounding boxes y puntos

Se describe la solución propuesta por DeepSeek: el uso de "bounding boxes" y puntos para referenciar objetos en las imágenes. Las "bounding boxes" permiten referenciar con coordenadas áreas específicas de la imagen, mientras que los puntos permiten señalar ubicaciones precisas. Esto ayuda al modelo a razonar sobre la imagen de manera más efectiva.

Compresión brutal con alta precisión

Se destaca que el paper no solo presenta el uso de "bounding boxes" y puntos, sino también una alta compresión de la información visual con alta precisión. Se mencionan los resultados del paper, donde se logra una compresión significativa con un buen rendimiento en varios benchmarks, superando a modelos como Gemini 3 Flash, GPT 5.4 y Clotsonet 4.6. El modelo utilizado tiene 284 billones de parámetros y 3 billones de parámetros activados.

Los dos problemas: percepción y referencia

Se identifican los dos problemas principales en los modelos multimodales: la percepción y la referencia. La percepción se refiere a cómo transformar los píxeles de una imagen en una representación útil, mientras que la referencia se refiere a cómo identificar y referenciar objetos específicos en la imagen. Se utiliza un ejemplo con cubos de colores para ilustrar la dificultad de referenciar un objeto específico sin información adicional.

Bounding boxes no son nuevas

Se aclara que el uso de "bounding boxes" no es una idea nueva, y se mencionan papers anteriores que ya utilizaban esta técnica. Se citan ejemplos como "Criting Boxes" y "visual chain of thought", donde se utilizan "bounding boxes" para seleccionar objetos en imágenes.

La diferencia: razonar CON las cajas, no después

Se explica la diferencia clave del enfoque de DeepSeek: en lugar de utilizar las "bounding boxes" a posteriori para verificar las tareas de percepción, las integran dentro del propio proceso de razonamiento. Esto permite al modelo razonar con las "bounding boxes" desde el principio, lo que mejora el razonamiento espacial.

Ejemplo del laberinto

Se utiliza un ejemplo de un laberinto para ilustrar cómo el modelo utiliza los puntos de referencia mientras razona para conectar dos puntos. El modelo incluye estos puntos de referencia durante el razonamiento, en lugar de verificarlos a posteriori.

Cómo procesan las imágenes los modelos multimodales

Se explica cómo los modelos multimodales procesan las imágenes. Primero, la imagen y la pregunta se tokenizan. Para la imagen, se utiliza un "visual transformer" que divide la imagen en "patches" de 14x14 píxeles, creando "patch tokens".

Visual Transformer y patch tokens

Se profundiza en el proceso de tokenización de imágenes utilizando un "visual transformer". Se explica que los "patch tokens" son vectores que codifican el contenido visual de cada región de la imagen.

Compresión espacial a tokens visuales

Se describe cómo se aplica una compresión espacial a los "patch tokens" para reducir la cantidad de tokens visuales. Se agrupan "patches" de 3x3 y se transforman en un solo token visual. Se proporciona un ejemplo numérico para ilustrar la reducción en la cantidad de tokens.

Prefill y la KV cache

Se explica el proceso de "prefill", donde el modelo procesa todo el input para preparar las representaciones internas necesarias para generar los próximos tokens. En cada capa del transformer, se calculan "keys", "queries" y "values" para cada token. Se introduce el concepto de la "KV cache", donde se guardan las "keys" y "values" calculadas durante el "prefill" para evitar recalcularlas en la generación de nuevos tokens.

Compress Sparse Attention

Se describe la técnica de "Compress Sparse Attention", donde se comprimen cuatro tokens visuales en una sola entrada en la "KV cache". Esto permite lograr una alta compresión de la información visual. Se menciona que, con esta técnica, se logra un ratio de compresión de 7056.

¿Cómo evitar errores con tanta compresión?

Se plantea la pregunta de cómo evitar errores con tanta compresión, especialmente en tareas complejas como la resolución de laberintos. Se introduce la estructura de etiquetas utilizada por DeepSeek para referenciar objetos en las imágenes.

Estructura de etiquetas: ref, box y point

Se describe la estructura de etiquetas utilizada por DeepSeek, que incluye etiquetas como "ref" (para la categoría semántica del objeto), "box" (para las "bounding boxes") y "point" (para los puntos de referencia).

Pre-training con datos masivos de bounding boxes

Se explica que el modelo se pre-entrena con un volumen masivo de datos de internet relacionados con "bounding boxes" y puntos. Se utilizan técnicas de web scraping y datasets públicos de alta calidad.

Datos curados para post-training

Se describe la preparación de datos curados específicamente para el post-entrenamiento, donde se le muestra al modelo cómo contar, razonar espacialmente y navegar en laberintos.

Ejemplos: contar, razonamiento espacial y laberintos

Se muestran ejemplos de tareas utilizadas en el post-entrenamiento, como contar objetos en imágenes, razonar sobre relaciones espaciales entre objetos geométricos y navegar en laberintos.

Supervised Fine-Tuning

Se describe la fase de "Supervised Fine-Tuning", donde se utiliza un 70% de datos generales multimodales y un 30% de datos relacionados con el razonamiento con primitivas visuales (bounding boxes y puntos).

Dos modelos especializados: grounding y pointing

Se menciona que, después de la fase de "Supervised Fine-Tuning", se obtienen dos modelos especializados: uno para "grounding" (relacionar el texto con la imagen) y otro para "pointing" (señalar objetos en la imagen).

Reinforcement Learning con GRPO

Se describe la fase de "Reinforcement Learning", donde se utiliza el algoritmo GRPO (Generalized Proximal Policy Optimization) y una serie de "reward models" diferentes para mejorar el rendimiento del modelo.

Fine-tuning: unificación en un solo modelo

Se explica que, en la fase de "Rejection Fine-Tuning", los dos modelos especializados se unifican en un solo modelo.

On-policy distillation con divergencia KL

Se describe la técnica de "On-policy distillation", donde el modelo estudiante (el modelo unificado) imita las distribuciones de salida de los modelos profesores (los modelos especializados). Se utiliza la divergencia KL para medir la diferencia entre las distribuciones de probabilidad y mejorar el rendimiento del modelo estudiante.

Limitaciones del paper

Se mencionan las limitaciones del paper, como los posibles fallos en las "bounding boxes" o en las primitivas visuales para elementos muy pequeños, y la limitación de que la capacidad de razonar con primitivas visuales se active solo con "trigger words".

Opinión sobre por qué lo retiraron

Se ofrece una opinión sobre las posibles razones detrás de la remoción del paper. Se argumenta que la cantidad de información revelada no es exagerada y que no daría una ventaja competitiva seria a otros competidores. Se sugiere que podría haber habido algún problema interno o un error en el proceso de revisión.

5/22/2026 www.youtube.com

El Nuevo Paper de DeepSeek: Menos Tokens, Más Precisión Visual

Resumen Breve

Summarize Anything ! Download Summ App