SAPO: Un Método de Aprendizaje por Refuerzo Estable y Eficiente para Modelos de Lenguaje Grande
El aprendizaje por refuerzo (RL) se ha consolidado como un componente esencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). Con los avances en las técnicas de RL, los modelos pueden resolver problemas matemáticos complejos, generar código sofisticado y razonar sobre entradas multimodales. Sin embargo, a pesar de su éxito empírico, la optimización de políticas estable y eficiente sigue siendo un desafío significativo. Esto se debe a la variabilidad de las proporciones de importancia a nivel de token, especialmente en modelos de Mixture-of-Experts (MoE) grandes.
Las proporciones de importancia son métricas que cuantifican la desviación de la política actual respecto a la política de comportamiento utilizada para generar las muestras de entrenamiento. Cuando estas proporciones fluctúan excesivamente, las actualizaciones de la política se vuelven ruidosas e inestables, dificultando el proceso de aprendizaje. Métodos existentes como GRPO (recorte a nivel de token) y GSPO (recorte a nivel de secuencia) intentan controlar esta inestabilidad mediante recortes duros, pero presentan limitaciones inherentes que afectan la eficiencia del aprendizaje.
Limitaciones de los Métodos Existentes
- Pérdida de señal de aprendizaje: El recorte duro descarta toda la información de gradiente fuera del rango de recorte, lo que puede llevar a la pérdida de muestras informativas.
- Dificultad para encontrar un equilibrio favorable: Un rango de recorte demasiado ajustado provoca que muchas muestras informativas contribuyan con un gradiente nulo, mientras que un rango amplio puede introducir gradientes ruidosos que desestabilizan el aprendizaje.
Estas limitaciones hacen que GRPO y GSPO a menudo luchen por lograr un equilibrio entre estabilidad, eficiencia en las muestras y progreso de aprendizaje consistente. Para abordar estos problemas, se propone el método de Optimización de Políticas Adaptativas Suaves (SAPO), diseñado para proporcionar una optimización estable y eficiente en el entrenamiento de LLMs.
Optimización de Políticas Adaptativas Suaves (SAPO)
SAPO sustituye el recorte duro por una función de puerta suavizada, controlada por temperatura, que ajusta de manera adaptativa las actualizaciones fuera de política mientras preserva los gradientes útiles. Esta innovación permite a SAPO ofrecer:
- Regiones de confianza continuas: Evita las discontinuidades asociadas con el recorte duro.
- Coherencia a nivel de secuencia: Similar a GSPO, pero sin descartar secuencias enteras.
- Adaptabilidad a nivel de token: Habilita la supresión selectiva de tokens problemáticos.
- Diseño asimétrico de temperatura: Refleja los comportamientos empíricamente diferentes de tokens positivos y negativos en modelos de gran vocabulario.
Este diseño unificado permite a SAPO lograr un aprendizaje efectivo y estable, mejorando así la formación de los modelos de lenguaje.
Funcionamiento de SAPO
La optimización de SAPO se basa en un objetivo de sustitución específico, que incluye proporciones de importancia a nivel de token y ventajas normalizadas en grupo. Este enfoque proporciona un control más fino sobre las actualizaciones de gradientes, permitiendo que el modelo se adapte mejor a las variaciones en las muestras de entrenamiento.
Resultados Experimentales
En pruebas controladas de RL centradas en razonamiento matemático, SAPO mostró un rendimiento superior en comparación con GSPO y GRPO-R2 (GRPO con reproducción de enrutamiento). Los hallazgos incluyen:
- SAPO mantiene un entrenamiento estable durante más tiempo que GSPO y GRPO-R2.
- Logra un mayor rendimiento final en tareas específicas como AIME25 y HMMT25.
- No requiere reproducción de enrutamiento, simplificando así las tuberías de RL.
Los experimentos a gran escala con modelos QWEN3-VL demostraron que SAPO mejora consistentemente el rendimiento en arquitecturas tanto MoE como densas, consolidando su eficacia a través de diferentes tamaños de modelos.
Implicaciones de SAPO para el Futuro de los LLMs Entrenados por RL
SAPO ofrece un enfoque práctico para estabilizar y mejorar el entrenamiento de RL en LLMs. Sus características innovadoras permiten:
- Mecanismos de confianza continuos que evitan la rigidez asociada con los métodos tradicionales de recorte.
- Coherencia en las actualizaciones a nivel de secuencia, facilitando dinámicas de optimización más interpretables.
- Preservación de gradientes informativos, lo que mejora la eficiencia de las muestras, incluso cuando solo un subconjunto de tokens está fuera de política.
- Control asimétrico de temperatura que reduce el impacto de actualizaciones de ventajas negativas de alta variabilidad.
A medida que el aprendizaje por refuerzo continúa impulsando las capacidades de los LLMs, se espera que SAPO se convierta en un componente fundamental de las tuberías de entrenamiento de RL.
Más Información
Para obtener detalles técnicos completos, análisis teóricos y experimentos extensivos, consulte nuestro artículo completo: Soft Adaptive Policy Optimization.
Si encuentra útil nuestro trabajo, no dude en citarlo.
Nota: Este contenido original ha sido modificado con IA y revisado por un especialista. Imagen generada por IA.












