El sorprendente método de DeepSeek para crear su IA con menos dinero

¡DeepSeek lo ha logrado! Esta startup china ha revolucionado la inteligencia artificial al construir un sistema de vanguardia con una fracción del costo que han necesitado gigantes como Meta. Mientras que las principales empresas tecnológicas invierten cientos de millones en chips de alto rendimiento, DeepSeek ha demostrado que es posible entrenar modelos de IA de primer nivel con solo 2,000 unidades, en comparación con las 16,000 que suelen emplearse. Y lo más impactante: lo hicieron con apenas 6 millones de dólares, una cifra que parece irrisoria frente a lo que gastan compañías como OpenAI.

Pero, ¿cuál es el secreto de DeepSeek? A través de un artículo científico publicado poco después de Navidad, los ingenieros de la empresa detallaron las estrategias que les permitieron reducir significativamente los costos sin sacrificar potencia. Aquí te explicamos cómo lo hicieron.

¿Cómo DeepSeek construyó su IA con menos dinero?

Las tecnologías de inteligencia artificial actuales funcionan mediante redes neuronales, sistemas matemáticos que aprenden patrones a partir del análisis de enormes cantidades de datos. Para entrenar estos modelos se requieren meses de procesamiento sobre textos, imágenes, sonidos y otros tipos de información.

Hace 15 años, los investigadores descubrieron que los chips gráficos o GPUs, diseñados originalmente para videojuegos, eran extremadamente eficientes en este tipo de tareas. Desde entonces, empresas como Nvidia han dominado el mercado con procesadores especializados para IA, que pueden costar hasta 40,000 dólares cada uno y consumen una cantidad colosal de electricidad. Además, la transferencia de datos entre estos chips puede requerir más energía que el propio procesamiento.

El ingenioso enfoque de DeepSeek

Para reducir los costos, DeepSeek aplicó una técnica conocida como “mixture of experts” o mezcla de expertos. En lugar de construir un solo modelo masivo que aprende todos los patrones de los datos de Internet, dividieron el sistema en múltiples redes neuronales especializadas. Por ejemplo, una para escribir poesía, otra para programación, otra para biología y así sucesivamente, hasta formar un conjunto de expertos en distintas áreas.

El problema de este método es que los modelos aún necesitan intercambiar información entre sí, lo que puede generar ineficiencias. Para resolverlo, DeepSeek introdujo un modelo adicional, un “generalista” con conocimientos básicos de cada tema. Este actuaba como un editor en una sala de redacción, coordinando la interacción entre los expertos y reduciendo la necesidad de transmitir grandes cantidades de datos entre chips. El resultado: una drástica mejora en la eficiencia.

La magia de los números

Otra optimización clave de DeepSeek fue una técnica de reducción de la precisión en los cálculos matemáticos, similar a la forma en que aprendimos sobre el número pi en la escuela. Pi es un número infinito (3.14159265358979...), pero en la práctica, solemos redondearlo a 3.14 para hacer cálculos aproximados. DeepSeek aplicó este mismo principio a los números utilizados en su modelo de IA.

Normalmente, las redes neuronales almacenan los valores matemáticos en 16 bits de memoria. DeepSeek logró reducir estos valores a 8 bits, eliminando decimales innecesarios y acelerando los cálculos. Aunque esto implica una leve pérdida de precisión, los resultados finales fueron más que satisfactorios.

Pero eso no fue todo. DeepSeek agregó una mejora extra: aunque los valores se almacenaban con menos bits, los resultados de las multiplicaciones se expandían a 32 bits, recuperando la precisión en las partes más críticas del proceso. Esta combinación permitió que la IA funcionara con la misma potencia, pero utilizando muchos menos recursos computacionales.

¿Por qué nadie más hizo esto antes?

Si todo esto parece tan lógico, ¿por qué no lo implementaron antes empresas como OpenAI o Google DeepMind? La razón es simple: la experimentación en IA es extremadamente costosa. Probar nuevas técnicas puede requerir inversiones de cientos de millones de dólares en electricidad y hardware, con el riesgo de que nada funcione al final.

Tim Dettmers, investigador del Allen Institute for AI en Seattle y excolaborador de Meta, lo explicó claramente:

“Tienes que apostar grandes cantidades de dinero para intentar algo nuevo, y muchas veces, falla. Por eso no vemos tanta innovación: la gente tiene miedo de perder millones sin obtener resultados”.

DeepSeek, sin embargo, asumió el riesgo y ganó. Y lo más relevante es que publicaron su investigación, lo que significa que otros laboratorios podrían empezar a adoptar estos métodos. Si esta tecnología se generaliza, podría reducir drásticamente el costo de desarrollar modelos de IA en el futuro.

DeepSeek, la IA del momento, envía explícitamente los datos de sus usuarios a China

Tu opinión es importante para mí, porque me ayuda a mejorar. Si te gustó el articulo o tienes alguna sugerencia, déjame tu comentario con tu nombre para poder responderte tan pronto como pueda.

Publicar un comentario (0)
Artículo Anterior Siguiente Artículo
¡Obtén un cupón de $60 de descuento de Temu aquí!