Tecnología

DeepSeek: la empresa china de IA está desafiando a los gigantes tecnológicos de EE. UU.

La empresa china de inteligencia artificial DeepSeek ha sorprendido a la comunidad tecnológica con el lanzamiento de modelos de IA altamente eficientes, que rivalizan con las ofertas de gigantes estadounidenses como OpenAI y Anthropic, empleando una fracción del capital y potencia de cálculo.

Tecnología

DeepSeek: la empresa china de IA está desafiando a los gigantes tecnológicos de EE. UU.

La empresa china de inteligencia artificial DeepSeek ha sorprendido a la comunidad tecnológica con el lanzamiento de modelos de IA altamente eficientes, que rivalizan con las ofertas de gigantes estadounidenses como OpenAI y Anthropic, empleando una fracción del capital y potencia de cálculo.

“Estamos cambiando las reglas del juego con nuestras técnicas innovadoras y modelos de última generación”

– Afirmó un portavoz de DeepSeek.

29/1/2025

Fundada en 2023, DeepSeek ha logrado un progreso notable en poco tiempo, desafiando a los líderes del sector de la inteligencia artificial con sus modelos V3 y R1.

El modelo V3, lanzado en diciembre de 2023, es un modelo de lenguaje grande que compite en rendimiento con el GPT-4 de OpenAI y Claude 3.5 de Anthropic. Este modelo fue entrenado con alrededor de 2,000 chips H800 de NVIDIA, mucho menos potentes en comparación con los hasta 16,000 chips H100 que usan algunos competidores. Sorprendentemente, el entrenamiento del modelo V3 implicó un costo de aproximadamente 5.58 millones de dólares y contiene alrededor de 671 mil millones de parámetros.

En enero de 2024, DeepSeek presentó el modelo R1, un modelo de "razonamiento" diseñado para abordar problemas complejos y que utiliza una versión modificada del modelo V3 y técnicas de aprendizaje por refuerzo. Este modelo ofrece un rendimiento comparable al modelo o1 de OpenAI.

El impacto de DeepSeek en el mercado ha sido significativo. La presentación del modelo R1 aumentó el interés en la aplicación de chatbot de la empresa, impulsada por el modelo V3. Este aumento en la popularidad contribuyó a una caída masiva en las acciones de tecnología. La empresa de chips NVIDIA sufrió una pérdida de valor de alrededor de 600 mil millones de dólares.

Dos técnicas claves que DeepSeek ha implementado para lograr eficiencia son la "sparsidad" y la "compresión de datos". La primera técnica utiliza solo una pequeña fracción de los parámetros disponibles para cada entrada, reduciendo considerablemente el tiempo de entrenamiento. La segunda permite almacenar información de manera más eficiente, haciendo más rápido el acceso a datos relevantes.

Además, DeepSeek ha liberado sus modelos y técnicas bajo la Licencia MIT, lo que permite a cualquier persona descargar y modificar esta tecnología. Esto podría perturbar las estrategias de algunas empresas de IA, pero es una excelente noticia para la comunidad investigadora que con frecuencia enfrenta limitaciones en recursos computacionales.

Estos avances están cambiando el panorama de la inteligencia artificial, permitiendo que más modelos puedan ser ejecutados en dispositivos personales, como laptops o teléfonos, eliminando la dependencia de servicios en la nube y sus tarifas de suscripción.

Algo Curioso

“Estamos cambiando las reglas del juego con nuestras técnicas innovadoras y modelos de última generación”

– Afirmó un portavoz de DeepSeek.

Jan 29, 2025
Colglobal News

Fundada en 2023, DeepSeek ha logrado un progreso notable en poco tiempo, desafiando a los líderes del sector de la inteligencia artificial con sus modelos V3 y R1.

El modelo V3, lanzado en diciembre de 2023, es un modelo de lenguaje grande que compite en rendimiento con el GPT-4 de OpenAI y Claude 3.5 de Anthropic. Este modelo fue entrenado con alrededor de 2,000 chips H800 de NVIDIA, mucho menos potentes en comparación con los hasta 16,000 chips H100 que usan algunos competidores. Sorprendentemente, el entrenamiento del modelo V3 implicó un costo de aproximadamente 5.58 millones de dólares y contiene alrededor de 671 mil millones de parámetros.

En enero de 2024, DeepSeek presentó el modelo R1, un modelo de "razonamiento" diseñado para abordar problemas complejos y que utiliza una versión modificada del modelo V3 y técnicas de aprendizaje por refuerzo. Este modelo ofrece un rendimiento comparable al modelo o1 de OpenAI.

El impacto de DeepSeek en el mercado ha sido significativo. La presentación del modelo R1 aumentó el interés en la aplicación de chatbot de la empresa, impulsada por el modelo V3. Este aumento en la popularidad contribuyó a una caída masiva en las acciones de tecnología. La empresa de chips NVIDIA sufrió una pérdida de valor de alrededor de 600 mil millones de dólares.

Dos técnicas claves que DeepSeek ha implementado para lograr eficiencia son la "sparsidad" y la "compresión de datos". La primera técnica utiliza solo una pequeña fracción de los parámetros disponibles para cada entrada, reduciendo considerablemente el tiempo de entrenamiento. La segunda permite almacenar información de manera más eficiente, haciendo más rápido el acceso a datos relevantes.

Además, DeepSeek ha liberado sus modelos y técnicas bajo la Licencia MIT, lo que permite a cualquier persona descargar y modificar esta tecnología. Esto podría perturbar las estrategias de algunas empresas de IA, pero es una excelente noticia para la comunidad investigadora que con frecuencia enfrenta limitaciones en recursos computacionales.

Estos avances están cambiando el panorama de la inteligencia artificial, permitiendo que más modelos puedan ser ejecutados en dispositivos personales, como laptops o teléfonos, eliminando la dependencia de servicios en la nube y sus tarifas de suscripción.

Fundada en 2023, DeepSeek ha logrado un progreso notable en poco tiempo, desafiando a los líderes del sector de la inteligencia artificial con sus modelos V3 y R1.

El modelo V3, lanzado en diciembre de 2023, es un modelo de lenguaje grande que compite en rendimiento con el GPT-4 de OpenAI y Claude 3.5 de Anthropic. Este modelo fue entrenado con alrededor de 2,000 chips H800 de NVIDIA, mucho menos potentes en comparación con los hasta 16,000 chips H100 que usan algunos competidores. Sorprendentemente, el entrenamiento del modelo V3 implicó un costo de aproximadamente 5.58 millones de dólares y contiene alrededor de 671 mil millones de parámetros.

En enero de 2024, DeepSeek presentó el modelo R1, un modelo de "razonamiento" diseñado para abordar problemas complejos y que utiliza una versión modificada del modelo V3 y técnicas de aprendizaje por refuerzo. Este modelo ofrece un rendimiento comparable al modelo o1 de OpenAI.

El impacto de DeepSeek en el mercado ha sido significativo. La presentación del modelo R1 aumentó el interés en la aplicación de chatbot de la empresa, impulsada por el modelo V3. Este aumento en la popularidad contribuyó a una caída masiva en las acciones de tecnología. La empresa de chips NVIDIA sufrió una pérdida de valor de alrededor de 600 mil millones de dólares.

Dos técnicas claves que DeepSeek ha implementado para lograr eficiencia son la "sparsidad" y la "compresión de datos". La primera técnica utiliza solo una pequeña fracción de los parámetros disponibles para cada entrada, reduciendo considerablemente el tiempo de entrenamiento. La segunda permite almacenar información de manera más eficiente, haciendo más rápido el acceso a datos relevantes.

Además, DeepSeek ha liberado sus modelos y técnicas bajo la Licencia MIT, lo que permite a cualquier persona descargar y modificar esta tecnología. Esto podría perturbar las estrategias de algunas empresas de IA, pero es una excelente noticia para la comunidad investigadora que con frecuencia enfrenta limitaciones en recursos computacionales.

Estos avances están cambiando el panorama de la inteligencia artificial, permitiendo que más modelos puedan ser ejecutados en dispositivos personales, como laptops o teléfonos, eliminando la dependencia de servicios en la nube y sus tarifas de suscripción.

Algo Curioso

PODRÍA INTERESARTE
 

No tienes acceso

Necesitas una membresía para acceder al contenido de este sitio.
Por favor Regístrate o Ingresa