Alibaba Qwen Gana el “NeurIPS 2025 Best Paper Award” por Avances en Mecanismos de Atención
El equipo de Alibaba Qwen ha sido galardonado con el prestigioso “NeurIPS 2025 Best Paper Award” en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS), uno de los eventos más importantes en el ámbito del aprendizaje automático y la inteligencia artificial. Este reconocimiento destaca la investigación innovadora del equipo sobre los mecanismos de atención en los modelos de lenguaje grandes (LLMs).
El trabajo premiado, titulado “Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free”, es pionero en la industria al examinar de manera sistemática cómo el atención gating afecta el rendimiento y entrenamiento de modelos de gran escala. Este enfoque innovador ha establecido un nuevo estándar en la investigación sobre LLMs.
Innovaciones en el Mecanismo de Gating
El gating, un mecanismo que controla el flujo de información a través de la red, se ha convertido en una técnica ampliamente utilizada en las arquitecturas de LLM. Funciona como unos «auriculares inteligentes que cancelan el ruido» para el modelo, ayudando a filtrar la información irrelevante y potenciando la efectividad general del mismo.
Para evaluar rigurosamente el papel del gating, el equipo de Qwen llevó a cabo un extenso estudio comparando más de 30 variantes de modelos Mixture-of-Experts (MoE) de 15B y modelos densos de 1.7B, entrenados en un conjunto de datos de 3,5 billones de tokens. Los resultados de la investigación demuestran que una simple modificación arquitectónica —añadir un gate sigmoide específico por cabeza después de la Atención de Producto Escalado (SDPA)— mejora consistentemente el rendimiento del modelo.
Mejoras en la Estabilidad del Entrenamiento
- La modificación mejora la estabilidad del entrenamiento.
- Permite tasas de aprendizaje más grandes.
- Optimiza las propiedades de escalado.
Estos hallazgos han sido incorporados en el modelo Qwen3-Next, lanzado en septiembre de 2025, que introdujo innovaciones arquitectónicas al reemplazar la atención estándar por una combinación de Gated DeltaNet y Gated Attention. Este diseño mejora las capacidades de aprendizaje en contexto y aumenta la eficiencia computacional.
Contribuciones a la Comunidad y a la Investigación Futura
Para apoyar la investigación adicional y la adopción comunitaria, el equipo de Qwen ya ha publicado los códigos y modelos relacionados en Github y HuggingFace. La principal recomendación del artículo es fácilmente implementable, y dado el amplio respaldo de evidencias proporcionadas, se espera que esta idea sea adoptada ampliamente en la comunidad.
El comité de selección de NeurIPS destacó que “este artículo representa una cantidad sustancial de trabajo que solo es posible con acceso a recursos de computación a escala industrial, y la disposición de los autores para compartir los resultados de su trabajo es altamente elogiable, especialmente en un entorno donde ha habido un movimiento alejado de la compartición abierta de resultados científicos sobre LLMs”.
Nota: Este contenido original ha sido modificado con IA y revisado por un especialista.












