Doxa 2144

Por qué DeepSeek no debería haber sido una sorpresa

Por Prithwiraj (Raj) Choudhury, Natarajan Balasubramanian y Mingtao Xu
Innovación disruptiva
Harvard Business Review

#Doxa #DeepSeek #empresa #IA #eficiente #teoría #gestión #disrupción #rival #innovación #reducir #costos #LLM #China #genéricas #diversificación #riesgo #ventaja #trabajar #proveedor #reducir #costos #asociación #tecnología
Resumen. La startup china DeepSeek sorprendió a muchos cuando su nuevo modelo desafió a las empresas estadounidenses de inteligencia artificial establecidas a pesar de ser más pequeñas, más eficientes y significativamente más baratas. Sin embargo, la teoría de la gestión, específicamente la teoría de la disrupción, podría haber predicho que un rival como este inevitablemente aparecería. Después de todo, la innovación disruptiva tiene que ver con alternativas de bajo costo que no son de vanguardia pero funcionan adecuadamente para muchos usuarios. Esto, al parecer, es exactamente cómo DeepSeek ha creado la onda expansiva que ha creado. DeepSeek no es sui generis. Está operando de manera similar a muchas otras chinas, que se diferencian de sus contrapartes estadounidenses en dos formas significativas: 1) a menudo utilizan hardware más barato y aprovechan una arquitectura abierta (y por lo tanto más barata) para reducir costos, y 2) muchos LLM chinos están personalizados para aplicaciones específicas de dominio (más estrechas) y no para tareas genéricas. La teoría de la gestión también ofrece una idea de cómo las empresas deberían proceder a partir de aquí. Por un lado, un beneficio de tener múltiples modelos LLM implementados dentro de una organización es la diversificación del riesgo. Por otra parte, una ventaja de trabajar con un único proveedor es la reducción de los costes administrativos y una mejor comprensión de las capacidades de ambas partes de la asociación. Las teorías de gestión anteriores también sugieren una tercera posibilidad: la gobernanza plural, que implica utilizar una combinación de proveedores externos y desarrolladores internos para aprovechar una tecnología emergente.
La startup china de inteligencia artificial DeepSeek sorprendió a mucha gente este mes. Su nuevo modelo, lanzado el 20 de enero, compite con los modelos de las principales empresas estadounidenses de inteligencia artificial, como OpenAI y Meta, a pesar de ser más pequeño, más eficiente y mucho, mucho más barato tanto de entrenar como de operar.

Sin embargo, el éxito de la empresa china probablemente podría haber sido predicho por la teoría de la gestión, en concreto, la teoría de la innovación disruptiva. Después de todo, la innovación disruptiva tiene que ver con alternativas de bajo coste que no son de vanguardia, pero que funcionan adecuadamente para muchos usuarios. Así, al parecer, es exactamente como DeepSeek ha creado la onda expansiva que ha puesto en tela de juicio algunas de las suposiciones de la industria estadounidense de la IA y ha hecho que las acciones de las empresas tecnológicas y energéticas se desplomen como resultado.

Si la teoría de la gestión puede ayudar a explicar lo que acaba de suceder, también ofrece una idea de hacia dónde podemos dirigirnos a partir de ahora. Basándonos en teorías del cambio tecnológico, destacamos las implicaciones de lo que esta disrupción significa para las empresas globales, mientras sus líderes lidian con la decisión de si conceder licencias para los modelos de gran lengua (LLM) chinos o estadounidenses o mantener abiertas sus opciones.

Diferencias entre los LLM chinos y estadounidenses
Es importante señalar en primer lugar que los LLM chinos difieren de sus homólogos estadounidenses en dos aspectos importantes: 1) suelen utilizar hardware más barato y aprovechan una arquitectura abierta (y, por lo tanto, más barata) para reducir los costes, y 2) muchos LLM chinos están personalizados para aplicaciones específicas de un dominio (más acotadas) y no para tareas genéricas. Sin embargo, modelos como DeepSeek-R1 están surgiendo como modelos de razonamiento de propósito más general.

Los modelos LLM estadounidenses suelen entrenarse en clústeres de GPU de última generación que incluyen decenas de miles de los chips más avanzados de NVIDIA y requieren una enorme inversión de capital e infraestructura en la nube. Por el contrario, al menos en parte debido a los controles de exportación de chips avanzados, la mayoría de los LLM chinos dependen del entrenamiento distribuido en múltiples GPU menos potentes. Sin embargo, logran un rendimiento competitivo, aunque no necesariamente de vanguardia, a través de una arquitectura más eficiente. Por ejemplo, la arquitectura Multi-Head Latent Attention (MLA) y Mixture of Experts (MOE) de DeepSeek están diseñadas para reducir el uso de memoria, lo que permite una utilización más eficiente de los recursos informáticos.

La adopción de bases de código abierto también desempeña un papel crucial en el desarrollo de LLM chino. DeepSeek-V3, el modelo base que impulsa su último sistema de razonamiento, y DeepSeek-R1 se han publicado bajo la licencia de código abierto del MIT. Esta licencia permisiva fomenta la adopción generalizada al permitir a los usuarios utilizar, modificar y distribuir libremente el software, incluso con fines comerciales, con restricciones mínimas. La ventaja de esta arquitectura eficiente y el enfoque de código abierto es más evidente cuando se comparan los costos de capacitación: los 5,6 millones de dólares informados por DeepSeek (para V3) en comparación con los 40 millones a 200 millones de dólares que las empresas de inteligencia artificial estadounidenses como OpenAI y Alphabet han informado haber gastado en sus LLM.

Además, mientras que los modelos estadounidenses priorizan las consultas de propósito general entrenadas en vastos conjuntos de datos de origen global, muchos LLM chinos también están diseñados para una precisión específica del dominio. Los gigantes tecnológicos chinos, como Alibaba, Tencent, Baidu y ByteDance, así como las nuevas empresas emergentes como DeepSeek, ofrecen aplicaciones específicas de la industria impulsadas por sus LLM que están profundamente integradas en los ecosistemas digitales de China.

En resumen, los LLM chinos dependen de un hardware menos avanzado y se centran inicialmente en aplicaciones de gama baja (más específicas, menos de propósito general) que requieren menos potencia computacional. Esto también significa que muchos LLM chinos tienen un precio más bajo. Por ejemplo, Qwen plus de Alibaba y Doubao 1.5-pro de ByteDance cuestan menos de 0,30 dólares por 1 millón de tokens de salida en comparación con más de 60 dólares para OpenAIo1 y Claude 3.5 Opus de Anthropic.

Esta es la clásica teoría de la disrupción en acción. Es una repetición de cómo las miniacerías disrumpieron a las plantas siderúrgicas integradas hace décadas. La teoría de la disrupción predice que una tecnología inferior en su inicio (como el horno de arco eléctrico) adaptada a tareas específicas de gama baja (como producir acero para varillas de refuerzo de menor calidad) surge como una amenaza para los productores de gama alta (como las plantas siderúrgicas integradas) cuyo único objetivo son los clientes de gama alta que ofrecen mayores márgenes (como los clientes de chapa de acero de alta gama). Lenta pero sostenidamente, el disruptor mejora la calidad de su oferta y el incumbente cede participación de mercado en un segmento tras otro al disruptor.

La teoría de la disrupción predice el surgimiento y la evolución de DeepSeek y sus similares. De hecho, no sería sorprendente que surgieran otros disruptores en los próximos meses. En particular, los modelos de lenguaje pequeño (SLM, por sus siglas en inglés), que utilizan menos datos y recursos y producen contenido de menor calidad, podrían ser otra tecnología que desafíe a los LLM estadounidenses y chinos en los próximos meses.

¿Hacia dónde vamos desde aquí?
La aparición de DeepSeek plantea una pregunta para las salas de juntas de todo el mundo: ¿deberían las empresas invertir en licencias para LLM estadounidenses o chinos? ¿O en ambos? En este caso, también resultan útiles los conocimientos previos de gestión, especialmente en lo que respecta a la diversificación tecnológica.

Una ventaja de tener varios modelos LLM implementados dentro de una organización es la diversificación del riesgo. Con los LLM, esto se traduce en la mitigación de los efectos del tiempo de inactividad en el extremo del proveedor. Por ejemplo, si el servicio OpenAI se viera afectado por algún motivo, la empresa puede seguir funcionando utilizando el modelo de otro proveedor.

Otro beneficio de utilizar múltiples modelos proviene de las ventajas de la agregación. Diferentes modelos utilizan algoritmos diferentes y, por lo tanto, brindan respuestas diferentes a la misma pregunta. Los estudios han demostrado que la agregación de múltiples modelos y múltiples fuentes de predicciones (un enfoque que los investigadores han denominado "agrupamiento" ) a menudo produce resultados de mejor calidad, en particular con tareas complejas y ambiguas. De hecho, plataformas como Openrouter, un agregador de modelos de IA fundado recientemente en Estados Unidos, ya ofrecen una interfaz integrada que permite a los usuarios comparar el rendimiento y el costo de más de 180 modelos en tiempo real por una pequeña tarifa.

Por otra parte, una ventaja de trabajar con un único proveedor es la reducción de los costes administrativos y una mejor comprensión de las capacidades de ambas partes de la asociación. El uso de múltiples modelos aumenta los riesgos de privacidad y seguridad de los datos, ya que es posible que haya que compartirlos con varios proveedores. Aunque muchas de estas preocupaciones son comunes a todos los LLM, incluidos los estadounidenses, el acceso a los datos y el uso de los mismos en distintos países (por ejemplo, entre Estados Unidos y China), cada uno con su propio marco regulatorio, añadirá otra capa de complejidad. Esto puede ser especialmente problemático, sobre todo en aplicaciones sensibles como la atención sanitaria.

Las teorías de gestión anteriores sobre el cambio tecnológico y la diversificación también sugieren una tercera posibilidad más allá de la contratación única o múltiple: la gobernanza plural. La gobernanza plural implica utilizar una combinación de proveedores externos y desarrolladores internos para aprovechar una tecnología emergente. De hecho, la investigación previa en economía ha sostenido durante mucho tiempo que las empresas que desarrollan internamente capital humano específico para cada época tienen más probabilidades de beneficiarse de la aparición de nuevas tecnologías. En el caso de los modelos lingüísticos, esto podría implicar el uso de LLM estadounidenses para tareas de propósito general (como desarrollar un robot que ayude en la investigación para consultores o abogados en una firma de servicios profesionales) y aprovechar LLM chinos para tareas específicas de la empresa (como un robot de capacitación de recursos humanos que ayude a incorporar nuevos trabajadores).

Yendo más allá, un modelo LLM de código abierto y menor costo con menores requisitos de datos de capacitación, incluso uno con capacidades menores que uno de código cerrado, permitirá a las empresas desarrollar modelos específicos para cada empresa que se adapten a su contexto. Sin embargo, con el tiempo, estos modelos de menor costo y menor calidad probablemente desbancarán a los modelos de mayor costo, al igual que las miniacerías desbancaron a las plantas siderúrgicas integradas en todos los segmentos del mercado.

Incluso con las preocupaciones sobre la privacidad y la seguridad de los datos (y a pesar del reciente episodio de TikTok ), las empresas estadounidenses de IA ignorarán la amenaza de disrupción de las LLM chinas bajo su propio riesgo. Como mínimo, deberían temer la aparición de disruptores estadounidenses que utilicen SLM, entre otros enfoques. Las grandes empresas estadounidenses de IA también podrían intentar disrumpirse a sí mismas (por ejemplo, GE desarrolló su propio dispositivo de ultrasonido portátil para disrumpir el negocio de ultrasonido más caro), aunque las investigaciones sugieren que la autodisrupción es increíblemente difícil. En particular, la falacia del costo hundido relacionada con las inversiones previas en chips, hardware y datos de entrenamiento costosos (que en este momento son en parte costos hundidos) y los incentivos para vender soluciones de alto margen podrían atar a la mayoría de las empresas estadounidenses de IA a sus LLM de alta gama en lugar de invertir en LLM más baratos pero "suficientemente buenos".

Para las empresas globales que utilizan LLM, la disrupción en el espacio LLM abre las puertas a la inversión en habilidades internas y al desarrollo de modelos específicos de la empresa que podrían conducir a casos de uso más específicos, menores costos y mayor ROI.

Lea más sobre Innovación disruptiva o temas relacionados IA y aprendizaje automático, Tecnología y análisis, Estrategia competitiva, Estrategia e innovación

Prithwiraj (Raj) Choudhury es profesor asociado de la familia Lumry en la Escuela de Negocios de Harvard y editor asociado en Management Science. Estudia el futuro del trabajo y ha sido galardonado con los premios Future of Work-50 de Forbes y Future of Work-30 de TIME-Charter.

Natarajan Balasubramanian es profesor titular de la cátedra Albert & Betty Hill en la Whitman School of Management de la Universidad de Syracuse. Estudia cómo la tecnología, el capital humano, el aprendizaje organizacional y la innovación contribuyen a la creación de valor empresarial.

Mingtao Xu es profesor asociado del Departamento de Innovación, Emprendimiento y Estrategia de la Facultad de Economía y Gestión de la Universidad de Tsinghua. Su investigación se centra en los derechos de propiedad en la innovación, así como en las implicaciones estratégicas de la inteligencia artificial (IA).


No hay comentarios:

Publicar un comentario