Lo que DeepSeek indica sobre el rumbo de la IA
Por Toby E. Stuart
IA y Aprendizaje Automático
Harvard Business Review
#Doxa #DeepSeek #IA #R1 #líderes #modelos #razonar #economía #inflexión #código #abierto #cerrado #propietario #escasez #silicio #innovación #ventaja
Resumen. En lugar de entender el R1 de DeepSeek como un momento decisivo, los líderes deberían pensar en él como una señal de dónde se encuentra el panorama de la IA en este momento y un presagio de lo que está por venir. Deberían tener en cuenta cinco lecciones: 1) estamos pasando de modelos que reconocen patrones a modelos que pueden razonar, 2) la economía de la IA está en un punto de inflexión, 3) el momento actual muestra cómo los modelos propietarios y de código abierto pueden coexistir, 4) la escasez de silicio impulsa la innovación y 5) a pesar del impacto que DeepSeek causó con este modelo, no lo cambió todo y aspectos como las ventajas de los modelos propietarios sobre el código abierto siguen vigentes.
El lanzamiento del modelo R1 de DeepSeek a finales de enero de 2025 desencadenó una marcada caída de las valoraciones de mercado en toda la cadena de valor de la IA, desde los desarrolladores de modelos hasta los proveedores de infraestructura. Los inversores vieron en el R1, un rival potente pero económico para los modelos de IA establecidos en Estados Unidos, una amenaza para las altísimas proyecciones de crecimiento que habían justificado valoraciones descomunales. Sin embargo, para quienes han estado prestando atención, la llegada de DeepSeek (o algo parecido) era inevitable.
Aun así, es un buen momento para reflexionar sobre hacia dónde se dirige la IA. En lugar de entender el R1 de DeepSeek como un punto de inflexión, es más útil verlo como una señal de dónde estamos realmente ahora y un presagio de lo que está por venir.
Aquí hay cinco lecciones que los líderes empresariales deberían aprender de este momento.
Del reconocimiento de patrones a la resolución de problemas
Los grandes modelos de lenguaje se robaron el protagonismo en 2023 y 2024, pero en 2025 nos maravillarán los sistemas de IA que pueden razonar, planificar y operar de forma autónoma. Esto se debe a que dos tendencias relacionadas dominarán el panorama de la IA este año: el auge de los modelos de razonamiento y la llegada de agentes de IA que están listos para su momento cumbre. Estas capacidades dependen en gran medida del aprendizaje por refuerzo (RL), que es un método para entrenar a un agente inteligente para que tome una secuencia de buenas decisiones. Piense en ello como aprender a jugar a un videojuego. Cuando da en el blanco, salta una zanja ancha o adivina una palabra, gana puntos. A medida que juega, aprende a realizar acciones que son recompensadas.
La última generación de modelos como GPT 4 eran sorprendentes buscadores de patrones: se entrenaban previamente con grandes cantidades de información, la contextualizaban y nos dejaban boquiabiertos con sus asombrosas predicciones de la siguiente palabra para responder a nuestras indicaciones.
DeepSeek R1 es un modelo de razonamiento de libre acceso, al igual que los modelos ChatGPT o3-mini de OpenAI y Copilot o1 de Microsoft, que acaban de lanzarse. Estos modelos representan un cambio crucial desde la predicción incierta de la siguiente palabra a la resolución metódica de problemas que depende en gran medida del aprendizaje directo. El razonamiento les permite realizar ciertas tareas mucho mejor que los modelos anteriores, como resolver problemas matemáticos. Piense en intentar multiplicar dos números grandes. La mayoría de las personas no pueden mirarlos y adivinar la respuesta: necesitan sacar un lápiz y un bloc, dividir el problema en pasos y resolverlo. Los modelos de razonamiento también pueden hacer esto cada vez más.
Gracias a la capacidad de analizar y razonar los problemas, los agentes de IA pueden aprender a navegar dinámicamente por flujos de trabajo complejos y adaptarse a la nueva información que surge durante el proceso de finalización de tareas, en lugar de limitarse a guiones rígidos y predefinidos. Esto es exactamente lo que hacemos los humanos en nuestro trabajo, como cuando los agentes de atención al cliente responden a consultas, los empleados administrativos crean horarios y planifican viajes, y cuando los analistas de datos recopilan información, la analizan y redactan un informe.
El punto de inflexión económico de la IA
Uno de los grandes titulares en torno a DeepSeek R1 es su supuesto coste de desarrollo de 5,5 millones de dólares. Esa cifra es engañosa. Es probable que solo refleje el coste de una única prueba de entrenamiento, sin incluir los gastos de infraestructura, ingeniería e implementación. Una cifra total que incluyera esos gastos sería mucho mayor, aunque todavía significativamente inferior a las estimaciones de los costes de desarrollo de OpenAI, Anthropic, Google y otros modelos con los que compite R1.
En lugar de centrarnos únicamente en estos números, deberíamos prestar más atención a los costos de inferencia, es decir, los gastos asociados con el uso real de los modelos después de que han sido entrenados. El entrenamiento requiere una inversión inicial sustancial, pero los costos de inferencia son cruciales para las aplicaciones empresariales. DeepSeek R1 y otros participantes recientes, incluida la serie de modelos Llama de Meta, representan grandes reducciones en estos gastos. Como regla general, la caída de los precios tiende a estimular la competencia e impulsar la adopción por parte de los usuarios. Basta pensar en la caída de los precios ajustados al rendimiento en los mercados de todos los productos electrónicos (teléfonos inteligentes, televisores, computadoras portátiles) impulsada por las ganancias de eficiencia en la producción de semiconductores. Esta es la Ley de Moore que impulsa la caída de precios y las tasas de adopción más altas de demasiados productos finales para nombrarlos. Lo mismo está sucediendo en la IA.
La IA de código abierto y la de código abierto coexistirán
Una de las razones por las que deberíamos haber esperado un desarrollo como DeepSeek R1 es la economía básica del software de código abierto. Históricamente, los proyectos de código abierto han desafiado las soluciones propietarias al reducir significativamente los costos, como Unix/Linux en la informática empresarial, Android en los sistemas operativos móviles, MySQL en las bases de datos y, por supuesto, Llama en la inteligencia artificial. La ventaja de costo del software de código abierto está bien documentada. Es previsible que la inteligencia artificial siga una trayectoria similar.
En IA, los modelos propietarios de empresas como OpenAI, Alphabet y Anthropic siguen estando a la vanguardia en cuanto a capacidades multimodales, seguridad (parece ser fácil desbloquear DeepSeek R1 ) y otros puntos de referencia. Aun así, los modelos de peso abierto como DeepSeek R1 han cerrado la brecha en el razonamiento basado en texto y el modelo es increíblemente eficiente. El potencial para los casos de uso empresarial del modelo se refleja en la decisión de Microsoft de la noche a la mañana de integrar DeepSeek R1 en Azure. Debido a sus menores costos y mayor flexibilidad, los modelos abiertos como DeepSeek R1 serán muy atractivos para los usuarios. También lo serán una serie de modelos de lenguaje pequeños, como Phi-4 de Microsoft, que han demostrado un sólido rendimiento en muchos casos de uso.
Por ahora, parece que podemos esperar una estructura de mercado con una gama diversa de actores, en lugar de un escenario en el que el ganador se lleva casi todo.
La escasez de silicio impulsa la innovación algorítmica
Otra parte de la reacción a DeepSeek R1 se ha centrado en la noticia "sorprendente" de que China parece haber cerrado la brecha con Estados Unidos en los modelos de IA de frontera. Las restricciones de exportación de Estados Unidos tenían como objetivo limitar el acceso chino a los semiconductores más avanzados y ayudar a preservar el liderazgo de las empresas estadounidenses en la investigación de IA. (Algunos argumentan que esto solo refuerza la necesidad de tales controles ). El hecho de que este enfoque no haya tenido un éxito total no debería ser una gran sorpresa. ¿Recuerda el viejo adagio de que la necesidad es la madre de la invención? Las limitaciones de silicio han llevado a los investigadores chinos a priorizar la eficiencia algorítmica sobre la potencia de cálculo bruta, una estrategia que podría resultar profética a medida que el consumo de energía del centro de datos explote. Pero este hecho -y la elegancia de la investigación algorítmica realizada en China- ha sido cierto durante algún tiempo. El panorama de LLM de China ha estado creciendo rápidamente con 117 LLM disponibles para uso público el año pasado. A pesar de las estrictas restricciones sobre los datos de entrenamiento y los resultados, bastantes LLM chinos son competitivos en las tablas de clasificación mundiales, sobresaliendo particularmente en tareas en idioma chino. El grupo de talentos de IA allí es excepcional; DeepSeek cuenta con un equipo de investigación extremadamente innovador y el talento en IA en el país es enorme.
DeepSeek R1 no lo cambió todo
Dicho todo esto, los principales laboratorios de IA y los hiperescaladores de Occidente (entre ellos, Microsoft, Meta, Alphabet y Amazon) seguirán invirtiendo a niveles vertiginosos, lo que garantizará que la demanda de GPU de última generación e infraestructura de IA seguirá siendo alta. Los modelos abiertos no reemplazarán por completo a los propietarios, y es probable que veamos inmensos recursos computacionales consumidos en el entrenamiento y la inferencia de modelos. Como resultado, la carrera apretada por los sistemas de IA más capaces seguirá impulsando la demanda de chips de alto rendimiento e infraestructura de nube a gran escala, a pesar de que los costos de inversión ahora superan ampliamente los ingresos de muchos actores de la industria.
Además, los grandes compradores de infraestructura en Occidente están indudablemente preocupados por el riesgo de suministro, ya que la mayoría de los semiconductores avanzados se fabrican en una planta de TSMC ubicada en Taiwán. Dada la tensión en las relaciones entre Estados Unidos y China y el valor estratégico de Taiwán, es probable que los principales compradores en Occidente estén pensando en acumular capacidad de procesamiento.
El ritmo de los avances de la IA (así como la importancia social y económica de este conjunto de tecnologías) posiblemente no tenga precedentes históricos. El aprendizaje por refuerzo permite avances en los modelos de razonamiento y los agentes de IA, que a su vez conducirán a innumerables aplicaciones nuevas; por lo tanto, el año 2025 estará repleto de momentos de “búsqueda profunda”. Se espera un avance continuo, un aumento de los casos de uso en el mundo real y el verdadero comienzo de una reestructuración de la economía a escala sísmica.
Lea más sobre IA y aprendizaje automático o temas relacionados IA generativa, Tecnología y análisis, Innovación disruptiva e Innovación
Toby E. Stuart es titular de la Cátedra Helzel en Emprendimiento, Estrategia e Innovación; Director de la Facultad del Programa de Emprendimiento Berkeley Haas; Decano Asociado de Asuntos Externos; y Director de la Facultad del Instituto de Innovación Empresarial de la Escuela de Negocios Haas de la UC Berkeley.
No hay comentarios:
Publicar un comentario