Publicado originalmente en: The China Academy 26 de enero de 2025 por Hongda Jiang
A menudo se ha citado a Lenin (quizás mal citado) diciendo: “Hay décadas en las que no sucede nada; y hay semanas en las que suceden décadas”. Independientemente de la exactitud de la atribución, esta semana claramente pasará a la historia en la segunda categoría. A principios de esta semana, DeepSeek Artificial Intelligence Co., Ltd., una subsidiaria del fondo de cobertura chino “High-Flyer Quant”, lanzó la última versión de su modelo de lenguaje grande (LLM, por sus siglas en inglés): DeepSeek R1.
Desde que ChatGPT se popularizó entre los consumidores, los gigantes tecnológicos más destacados de todo el mundo han estado trabajando en su propia versión de LLM, ya sea Llama de Meta, Grok de X, Claude de Anthropic o 01.AI de Beijing Zero One. Lo que hace que los modelos de DeepSeek se distingan de los competidores antes mencionados es que puede lograr un rendimiento comparable o superior en todas las categorías evaluadas mientras gasta una fracción del tiempo y el dinero que requiere el siguiente mejor competidor. Como referencia, DeepSeek supuestamente gastó aproximadamente $6 millones de dólares para entrenar su modelo, utilizando alrededor de 2,8 millones de horas de GPU en más de 2000 GPU Nvidia H800 (que funcionan a aproximadamente 1/6 de la velocidad de la serie H100 más avanzada de Nvidia). Logró esta hazaña en menos de 2 meses. Esto es menos del 10% del costo del siguiente modelo más barato, Llama 3 (al menos $70 millones gastados), y menos del 6% de las horas de GPU gastadas por el siguiente competidor no chino más rápido, GPT-4 de OpenAI (aproximadamente 50-60 millones de horas de GPU gastadas), a pesar del acceso de este último a las GPU de vanguardia de Nvidia que superan por lejos a las H800 inferiores de DeepSeek. Mejor aún, gran parte de las características y funcionalidades de DeepSeek son de código abierto bajo una » licencia MIT «, lo que significa que cualquiera puede copiar, modificar y distribuir el software y la documentación asociados de forma gratuita y sin restricciones.
Este es un hito revolucionario en la aún naciente industria del LLM, y este evento tiene algunas implicaciones estratégicas obvias:
- Las sanciones estadounidenses a China por los semiconductores han fracasado decisivamente . Desde los primeros controles a las exportaciones del régimen de Trump contra ZTE a fines de 2017 (y luego contra Huawei a mediados de 2018), Estados Unidos ha impuesto prohibiciones cada vez más estrictas a las exportaciones de semiconductores a China. Estas sanciones no solo prohíben las ventas de productos finales de semiconductores avanzados a China, sino también las ventas de equipos de fabricación de semiconductores, con el fin de evitar que China pueda acceder y construir los semiconductores más modernos y, por lo tanto, mantener a China detrás de Estados Unidos en términos de acceso a los últimos avances en inteligencia artificial. Estos 8 años de sanciones cada vez más estrictas no solo obligaron a las empresas chinas a aumentar la autosuficiencia en toda la cadena de valor de los semiconductores (lo que sería una novedad para cualquier país en la cadena de valor de los semiconductores), sino que también usaron su limitada capacidad de procesamiento de manera mucho más eficiente en relación con sus contrapartes estadounidenses, a fin de obtener resultados descomunales, como lo demuestra el último logro de DeepSeek. Si bien el modelo original de DeepSeek se entrenó con Nvidia H800 de fabricación estadounidense, es plausible que los modelos posteriores puedan utilizar contrapartes de producción nacional, como el “Ascend 910C” de Huawei. Si bien la serie Ascend no tiene acceso a los últimos procesos de fabricación de vanguardia (TSMC 2nm), es una plataforma lo suficientemente buena para ejecutar el modelo DeepSeek R1 a escala. De hecho, los entusiastas del bricolaje ya han demostrado que el software básico de código abierto DeepSeek puede ejecutarse en computadoras de gama baja como Raspberry Pi (aunque sin el modelo completo de 671 mil millones de parámetros), con un consumo de energía tan bajo como el de un teléfono inteligente común.
- Las valoraciones de los gigantes tecnológicos estadounidenses deben revisarse exponencialmente a la baja . El año pasado se suponía que cualquier empresa que quisiera construir un LLM necesitaba cientos de millones de dólares en hardware sofisticado (que solo unas pocas empresas como Nvidia pueden proporcionar) y decenas de millones de horas de GPU. Esto significaba que solo las empresas tecnológicas más ricas del mundo (Google, Meta, Microsoft, etc.) podían permitirse construir, mantener y ofrecer los servicios de un LLM. En consecuencia, las ganancias asociadas con los servicios LLM se concentrarían en manos de unas pocas empresas que tendrían valoraciones de varios billones de dólares (por ejemplo, Nvidia). El lanzamiento de DeepSeek R1 hizo añicos esta suposición. Ha demostrado que una startup con menos de 10 millones de dólares puede construir y entrenar un modelo, utilizando hardware más antiguo que está muy por detrás de la vanguardia. Por lo tanto, las pequeñas empresas pueden ofrecer servicios de manera rentable a centavos de dólar, dada la baja barrera financiera de entrada. En consecuencia, todas las ganancias (y, por lo tanto, las valoraciones generales de las empresas) previstas por el oligopolio tecnológico estadounidense deben ahora revisarse significativamente a la baja, con consecuencias potencialmente peligrosas para los mercados financieros estadounidenses.
- El sur global ahora puede disfrutar de los frutos de la IA generativa . El impacto más transformador de DeepSeek no está directamente relacionado con China o los EE. UU., sino más bien con el resto del mundo (particularmente el sur global). Ahora que todos en el mundo tienen acceso a un LLM de código abierto de alto rendimiento que tiene requisitos de hardware relativamente mínimos, la barrera financiera y de hardware para la entrada que mantenía al sur global fuera del juego de la IA ha sido prácticamente eliminada. Además, ningún país del mundo puede mantener la tecnología avanzada de IA fuera del alcance de cualquier otro país, grande o pequeño, debido a diferencias geopolíticas. Los nuevos cuellos de botella para la aplicación de la IA son ahora la educación y la imaginación. Dicho esto, incluso la educación se está convirtiendo cada vez menos en una barrera para la IA, ya que los usuarios de DeepSeek ya han demostrado la capacidad de desarrollar código de software (incluido el código de IA) sin escribir manualmente una sola línea de código. El LLM gratuito y de código abierto de DeepSeek liberará las capacidades imaginativas e innovadoras de más de 6 mil millones de personas en el sur global.
El logro de DeepSeek es, sin duda, un gran impulso para China en la carrera tecnológica chino-estadounidense. Sus beneficios van mucho más allá de simplemente mitigar el impacto de las prohibiciones estadounidenses a la exportación de semiconductores; su mayor valor añadido potencial proviene de otras dos fuentes:
- Oportunidades ampliadas para la exportación de semiconductores . DeepSeek hizo posible ejecutar un LLM escalable y de alto rendimiento en plataformas de hardware relativamente asequibles pero de rendimiento limitado. En consecuencia, el mercado disponible para la infraestructura de IA empresarial y gubernamental de pequeña escala con casos de uso específicos se ha ampliado enormemente en los mercados del sur global. Como principal fabricante mundial de semiconductores tradicionales, China está en la posición ideal para vender chips de IA de gama relativamente baja e infraestructura de back-end (o los servicios basados en la nube correspondientes) a países en desarrollo que anteriormente no podían permitirse implementar o utilizar infraestructura informática de alto rendimiento para casos de uso de IA.
- Mayor participación en el ecosistema de desarrolladores de IA . A medida que DeepSeek se convierta en el LLM de elección de desarrolladores de aplicaciones, investigadores y entusiastas de países desarrollados y en desarrollo por igual, su rápida adopción conducirá a mejoras más rápidas, más servicios disponibles, innovación acelerada y un apoyo comunitario más amplio para hacer de DeepSeek una alternativa aún más atractiva para un mayor número de personas en el futuro. El hecho de que sea mayoritariamente de código abierto hace que sea casi imposible para cualquier gobierno restringir o prohibir el uso y la proliferación de estas mejoras mencionadas anteriormente, lo que lo hace mucho más resistente a la agitación geopolítica.
A pesar de las numerosas ventajas para China, también existen riesgos incontrolables importantes que podrían desencadenarse como resultado de este logro. El primero y más importante en la mente de este autor es la posibilidad de que DeepSeek pueda impulsar a los EE. UU. a relajar los controles de exportación de semiconductores, al observar la relativa ineficacia de tales medidas. Tal medida puede tener el efecto perjudicial de atraer a las empresas chinas de nuevo a un estado de dependencia de la tecnología estadounidense de mayor rendimiento, desviando así los ingresos y los dólares destinados a I+D de las empresas chinas emergentes locales en la cadena de valor de las TIC. Contrariamente a la creencia popular, la sostenibilidad del progreso tecnológico de China es mucho más vulnerable a un EE. UU. más «amigable» que a uno más «hostil». Otro posible efecto secundario, tal vez inevitable, es que el logro de DeepSeek se suma a una letanía de otros “momentos Sputnik” recientes –ya sea la “Gran Migración Americana de RedNote”, el vuelo de prueba de dos plataformas de combate de sexta generación o el reciente avance de la reacción de fusión nuclear sostenida de EAST a más de 1000 segundos– que podrían galvanizar al público y a las élites estadounidenses por igual para hacer un esfuerzo más coordinado de toda la sociedad para mantener una ventaja tecnológica sobre la República Popular China. Desafortunadamente para China, no hay medios prácticos disponibles para mitigar ninguno de estos riesgos.
En resumen, el lanzamiento de DeepSeek R1 marca un momento crucial en la evolución de la IA y sus ramificaciones geopolíticas. Al lograr un rendimiento de vanguardia a una fracción del costo y el tiempo requeridos por sus competidores, DeepSeek no solo ha demostrado la creciente destreza tecnológica de China, sino que también ha transformado el panorama global de la IA. El fracaso de las sanciones estadounidenses a los semiconductores para sofocar la innovación china, la posible devaluación de los gigantes tecnológicos estadounidenses y la democratización de la IA para el sur global son solo el comienzo de los cambios transformadores que traerá consigo este avance. A medida que prolifere el modelo de código abierto de DeepSeek, empoderará a miles de millones de personas en todo el mundo, acelerará la innovación global y desafiará el orden tecnológico y económico existente. En esta nueva era, los ganadores serán aquellos que puedan aprovechar el poder de la IA para mitigar los mayores desafíos de la humanidad, independientemente de su punto de partida geográfico o económico.