Breve Resumen
El video resume el impacto inicial de DeepSeek en el mundo de la IA, incluyendo el lanzamiento de Janus Pro, un modelo multimodal que compite con los de OpenAI. Se discute un ataque cibernético que sufrió DeepSeek, las características y pruebas de Janus Pro, las reacciones del mercado y la industria, las perspectivas políticas y la competitividad, y si DeepSeek representa un nuevo paradigma en el entrenamiento de IA.
- DeepSeek ha lanzado Janus Pro, un modelo de IA multimodal que rivaliza con los de OpenAI.
- La compañía sufrió un ataque cibernético poco después del lanzamiento de su asistente de IA.
- El éxito de DeepSeek ha generado dudas sobre si se está gastando demasiado en el desarrollo de IA.
DeepSeek y su impacto inicial en IA
DeepSeek ha ganado atención por el lanzamiento de Janus Pro, una familia de modelos de inteligencia artificial multimodal. Este modelo supera a D3 de Open AI y a otros como Pixart Alpha y MU3 en benchmarks como Geneval y Diggy Bench. La versión más grande de Janus Pro, Janus Pro 7B, supera a modelos conocidos según pruebas internas de DeepSeek. Anteriormente, su modelo de lenguaje R1 igualó el rendimiento de O1 con un costo de desarrollo de 5 a 6 millones de dólares, en comparación con los miles de millones gastados por grandes laboratorios de IA en Silicon Valley. Esto ha generado preguntas sobre si se está pagando de más por el desarrollo de IA y si los próximos avances vendrán de equipos más pequeños con ideas frescas.
Ataque cibernético a DeepSeek
DeepSeek fue víctima de un ataque cibernético justo cuando su aplicación de asistente de inteligencia artificial se hizo popular, alcanzando el primer puesto en la lista de aplicaciones gratuitas de la Apple App Store en Estados Unidos. Tras el ataque, la compañía anunció un límite temporal en las inscripciones. Este incidente atrajo atención no deseada hacia la empresa.
Características de Janus Pro
Janus Pro se basa en una arquitectura de transformador unificada capaz de realizar diversas tareas, desde la generación de imágenes hasta 768x768, análisis de imágenes y tareas basadas en texto. A diferencia de muchos modelos de IA especializados en una sola tarea, Janus Pro adopta un enfoque todo en uno, similar a Generative Pretrain Transformer 4. DeepSeek ha publicado el código y los pesos del modelo en Hugging Face, permitiendo a cualquiera descargarlos, lo que contrasta con empresas como Open AI que mantienen todo detrás de APIs propietarias.
Pruebas y ciencia de datos en Janus Pro
Janus Pro se ofrece en diferentes tamaños, desde 1000 millones de parámetros hasta 7000 millones, siendo la versión de 7B la insignia. Las pruebas de la comunidad de usuarios revelan que Janus Pro describe bien objetos simples y su apariencia, pero tiene dificultades con el razonamiento profundo y la interpretación de metáforas, a diferencia de GPT4 Vision. En la generación de imágenes, produce resultados decentes, aunque puede carecer de la nitidez y el estilo artístico de modelos especializados. Su ventaja principal es la versatilidad. La apertura del código fuente permite a la comunidad ajustarlo para mejorar la calidad.
Reacciones del mercado y la industria
El éxito de DeepSeek tuvo un impacto en el mercado de valores, con una caída en las acciones tecnológicas, incluyendo una significativa disminución en el valor de mercado de Nvidia. Esto se debe a la posibilidad de que no se necesiten los chips más avanzados para entrenar modelos de IA de primer nivel. Sam Altman, CEO de Open AI, reconoció los logros de DeepSeek y anunció que planean responder con modelos aún mejores, invirtiendo más en recursos informáticos.
Perspectivas políticas y competitividad
La Casa Blanca, a través del presidente Trump, comentó que el lanzamiento de la IA de DeepSeek debería ser una llamada de atención para que las industrias estadounidenses compitan para ganar. Esto surge en medio de debates sobre la restricción de las exportaciones de chips a China, mientras que DeepSeek elude estas restricciones utilizando los recursos disponibles. El origen de DeepSeek es algo misterioso, ya que solo existe desde 2023 y tiene su sede en Hang Zhou. Algunos críticos se preocupan por posibles riesgos de seguridad y vínculos con el gobierno chino.
¿Nuevo paradigma en entrenamiento de IA?
El éxito de DeepSeek sugiere que no se necesitan miles de millones de dólares y los mejores chips de Nvidia para entrenar una IA competitiva. DeepSeek afirma haber gastado solo unos 5.6 millones en entrenar su modelo B3, utilizando nuevas técnicas de entrenamiento que permiten al modelo concentrarse en las secciones de datos más relevantes, ahorrando recursos informáticos. También utilizaron proyectos de código abierto de Alibaba y Meta como trampolín. Esto ha generado frustración en empresas occidentales con más recursos.
Reflexiones finales sobre innovación en IA
DeepSeek está estableciendo nuevos estándares de eficiencia con su enfoque de código abierto. Janus Pro ofrece tareas multimodales, generación y análisis de imágenes, y conversación basada en texto, mientras que su modelo R1 compite con Generative Pretrain Transformer 4 en razonamiento. El éxito de DeepSeek podría forzar a las grandes tecnológicas a cambiar de rumbo y centrarse en técnicas más eficientes y rentables. El rápido ascenso de DeepSeek demuestra que equipos pequeños y ágiles pueden mantener el ritmo si son inteligentes con sus métodos, lo que afecta la publicidad, los precios de las acciones, las tendencias de inversión y la forma en que los gobiernos consideran los controles de exportación.