Qwen3-Next: Nueva Arquitectura de Modelo Ultra Eficiente Desvelada

Qwen3-Next: Nueva Arquitectura de Modelo Ultra Eficiente Desvelada - Marketplace Insights - Imagen generada por IA

Qwen3-Next: Una Nueva Generación de Arquitectura de Modelos Ultra-Eficientes

Alibaba ha lanzado Qwen3-Next, una arquitectura de modelo completamente nueva, optimizada para la comprensión de contextos largos, gran escala de parámetros y eficiencia computacional sin precedentes. Esta innovadora arquitectura incluye un mecanismo de atención híbrido y una arquitectura de Mixture of Expert (MoE) altamente dispersa, lo que permite un rendimiento notable mientras se minimizan los costos computacionales.

El modelo inaugural con esta nueva arquitectura, Qwen3-Next-80B-A3B-Base, es un modelo de 80.000 millones de parámetros que activa solo 3.000 millones de parámetros durante la inferencia. Los modos Instruct (no pensante) y Thinking están ahora disponibles en código abierto y accesibles en plataformas como Hugging Face, Kaggle y la comunidad ModelScope de Alibaba Cloud.

Innovaciones Arquitectónicas y Eficiencia

El Qwen3-Next-80B-A3B-Base supera al modelo denso Qwen3-32B, utilizando menos del 10% de su costo de entrenamiento (medido en horas de GPU). Durante la inferencia, ofrece más de 10 veces mayor rendimiento que el Qwen3-32B al manejar longitudes de contexto que superan los 32.000 tokens, alcanzando una eficiencia suprema tanto en entrenamiento como en inferencia.

  • El modelo Qwen3-Next-80B-A3B-Instruct iguala el rendimiento del modelo insignia Qwen3-235B-A22B-Instruct-2507, sobresaliendo en escenarios de ultra-largo contexto.
  • Soporta de forma nativa una ventana de contexto de 256.000 tokens, ampliable hasta 1.000.000 tokens.
  • El modelo Qwen3-Next-80B-A3B-Thinking supera a un modelo de pensamiento líder en múltiples métricas.

Mejoras en la Eficiencia Computacional

El fuerte rendimiento con ultra eficiencia se logra gracias a innovaciones arquitectónicas que incluyen:

  • Mecanismo de atención híbrido que combina Gated DeltaNet y Gated Attention.
  • Diseño Ultra-Sparse MoE, que activa solo el 3,7% de los parámetros (3B de 80B) por paso de inferencia.
  • Multi-Token Prediction (MTP) que mejora tanto el rendimiento del modelo como la eficiencia de inferencia.

Con estas innovaciones, el Qwen3-Next marca un avance significativo en la arquitectura de modelos, adaptándose a las tendencias actuales del desarrollo de modelos grandes.

Qwen3-ASR-Flash: Herramienta de Transcripción de Voz AI Competitiva

Recientemente, Alibaba lanzó Qwen3-ASR-Flash, un modelo de reconocimiento automático de voz (ASR) que aprovecha la inteligencia multimodal de Qwen3-Omni, entrenado con decenas de millones de horas de datos de voz multilingües. Este modelo está disponible para desarrolladores a través de APIs en la plataforma de AI generativa de Alibaba Cloud, Model Studio.

Qwen3-ASR-Flash ofrece una precisión y robustez notables en 11 idiomas principales, incluyendo español, inglés, chino y otros, lo que asegura una amplia adaptabilidad regional. Además, puede transcribir letras de canciones incluso con música de fondo fuerte, superando a la mayoría de los modelos de voz en la industria.

Aplicaciones y Contexto en la Transcripción

Gracias a su precisión multilingüe y resistencia en condiciones acústicas desafiantes, Qwen3-ASR-Flash es ideal para diversas aplicaciones:

  • Transcripción de conferencias y transmisiones en vivo.
  • Análisis de archivos de audio complejos para investigación, medios o uso empresarial.

Vista Previa de Qwen3-Max: El Mayor Modelo “No Pensante” de Alibaba

La semana pasada, Alibaba también presentó Qwen3-Max, el modelo «no pensante» más grande de la serie Qwen, con más de 1 billón de parámetros. Este modelo se clasifica como el número 6 en el Text Arena, un ranking reconocido sobre la versatilidad de los LLMs.

Qwen3-Max-Preview ha reducido significativamente las alucinaciones en comparación con la serie Qwen2.5, generando respuestas de mayor calidad para preguntas abiertas, redacción y conversaciones. Soporta más de 100 idiomas y es óptimo para flujos de trabajo avanzados, incluyendo la generación aumentada por recuperación (RAG).

Los usuarios globales ahora pueden acceder a Qwen3-Max a través de Qwen Chat y Model Studio de Alibaba Cloud.

Este artículo fue originalmente publicado en Alizila: https://www.alizila.com/qwen3-next-a-new-generation-of-ultra-efficient-model-architecture-unveiled/

Nota: Este contenido original ha sido modificado con IA y revisado por un especialista.

Deja una respuesta