¡DeepSeek lo ha logrado! Esta startup china ha revolucionado la inteligencia artificial al construir un sistema de vanguardia con una fracción del costo que han necesitado gigantes como Meta. Mientras que las principales empresas tecnológicas invierten cientos de millones en chips de alto rendimiento, DeepSeek ha demostrado que es posible entrenar modelos de IA de primer nivel con solo 2,000 unidades, en comparación con las 16,000 que suelen emplearse. Y lo más impactante: lo hicieron con apenas 6 millones de dólares, una cifra que parece irrisoria frente a lo que gastan compañías como OpenAI.
Pero, ¿cuál es el secreto de DeepSeek? A través de un
artículo científico publicado poco después de Navidad, los ingenieros de la
empresa detallaron las estrategias que les permitieron reducir
significativamente los costos sin sacrificar potencia. Aquí te explicamos cómo
lo hicieron.
Las tecnologías de inteligencia artificial actuales
funcionan mediante redes neuronales, sistemas matemáticos que aprenden
patrones a partir del análisis de enormes cantidades de datos. Para entrenar
estos modelos se requieren meses de procesamiento sobre textos, imágenes,
sonidos y otros tipos de información.
Hace 15 años, los investigadores descubrieron que los chips
gráficos o GPUs, diseñados originalmente para videojuegos, eran extremadamente
eficientes en este tipo de tareas. Desde entonces, empresas como Nvidia han
dominado el mercado con procesadores especializados para IA, que pueden costar
hasta 40,000 dólares cada uno y consumen una cantidad colosal de electricidad.
Además, la transferencia de datos entre estos chips puede requerir más energía
que el propio procesamiento.
El ingenioso enfoque de DeepSeek
Para reducir los costos, DeepSeek aplicó una técnica conocida como “mixture of experts” o mezcla de expertos. En lugar de
construir un solo modelo masivo que aprende todos los patrones de los datos de
Internet, dividieron el sistema en múltiples redes neuronales especializadas.
Por ejemplo, una para escribir poesía, otra para programación, otra para
biología y así sucesivamente, hasta formar un conjunto de expertos en
distintas áreas.
El problema de este método es que los modelos aún necesitan
intercambiar información entre sí, lo que puede generar ineficiencias. Para
resolverlo, DeepSeek introdujo un modelo adicional, un “generalista” con
conocimientos básicos de cada tema. Este actuaba como un editor en una sala de
redacción, coordinando la interacción entre los expertos y reduciendo la
necesidad de transmitir grandes cantidades de datos entre chips. El resultado:
una drástica mejora en la eficiencia.
La magia de los números
Otra optimización clave de DeepSeek fue una técnica de
reducción de la precisión en los cálculos matemáticos, similar a la forma
en que aprendimos sobre el número pi en la escuela. Pi es un número infinito
(3.14159265358979...), pero en la práctica, solemos redondearlo a 3.14 para
hacer cálculos aproximados. DeepSeek aplicó este mismo principio a los números
utilizados en su modelo de IA.
Normalmente, las redes neuronales almacenan los valores
matemáticos en 16 bits de memoria. DeepSeek logró reducir estos valores a 8
bits, eliminando decimales innecesarios y acelerando los cálculos. Aunque esto
implica una leve pérdida de precisión, los resultados finales fueron más que
satisfactorios.
Pero eso no fue todo. DeepSeek agregó una mejora extra: aunque
los valores se almacenaban con menos bits, los resultados de las
multiplicaciones se expandían a 32 bits, recuperando la precisión en las
partes más críticas del proceso. Esta combinación permitió que la IA funcionara
con la misma potencia, pero utilizando muchos menos recursos computacionales.
¿Por qué nadie más hizo esto antes?
Si todo esto parece tan lógico, ¿por qué no lo implementaron
antes empresas como OpenAI o Google DeepMind? La razón es simple: la
experimentación en IA es extremadamente costosa. Probar nuevas técnicas
puede requerir inversiones de cientos de millones de dólares en electricidad y
hardware, con el riesgo de que nada funcione al final.
Tim Dettmers, investigador del Allen Institute for AI en
Seattle y excolaborador de Meta, lo explicó claramente:
“Tienes que apostar grandes cantidades de dinero para intentar algo nuevo, y muchas veces, falla. Por eso no vemos tanta innovación: la gente tiene miedo de perder millones sin obtener resultados”.
DeepSeek, sin embargo, asumió el riesgo y ganó. Y lo
más relevante es que publicaron su investigación, lo que significa que otros
laboratorios podrían empezar a adoptar estos métodos. Si esta tecnología se
generaliza, podría reducir drásticamente el costo de desarrollar modelos de IA
en el futuro.
DeepSeek, la IA del momento, envía explícitamente los datos de sus usuarios a China