Lecciones Clave de la Construcción de Modelos en AWS con GENIAC

Lecciones Aprendidas del Programa GENIAC de AWS para la Construcción de Modelos de Fundamento

En 2024, el Ministerio de Economía, Comercio e Industria (METI) de Japón lanzó el **Generative AI Accelerator Challenge (GENIAC)**, un programa nacional para impulsar la inteligencia artificial generativa mediante la asignación de financiamiento, mentoría y recursos computacionales masivos para el desarrollo de modelos de fundamento (FM). AWS fue seleccionado como proveedor de la nube para la segunda ronda del GENIAC, proporcionando infraestructura y orientación técnica a 12 organizaciones participantes.

Aunque el desafío parecía sencillo en papel, el entrenamiento exitoso de los FMs requirió más que solo hardware potente. AWS descubrió que la asignación de más de 1.000 aceleradores era solo el punto de partida; el verdadero reto consistía en arquitecturar un sistema fiable y superar obstáculos de entrenamiento distribuido. Durante la segunda ronda del GENIAC, se desplegaron 127 instancias de Amazon EC2 P5 y 24 instancias de Amazon EC2 Trn1 en un solo día, lo que permitió entrenar múltiples modelos a gran escala.

Equipos de Compromiso Multifuncionales

Una lección crucial de la participación técnica en GENIAC fue que ejecutar una iniciativa de aprendizaje automático (ML) a escala nacional y multi-organizacional requiere un apoyo coordinado entre diversos equipos internos. AWS estableció un equipo virtual que integró equipos de cuentas, arquitectos de soluciones especialistas y equipos de servicio. Este modelo de compromiso del GENIAC prospera gracias a la colaboración cercana entre los clientes y la estructura de equipo de AWS, como se ilustra en la figura siguiente.

Componentes	Descripción
Clientes (Cx)	Incluyen líderes de negocio y técnicos, responsables de ejecutar cargas de trabajo de entrenamiento.
Equipos de Cuenta	Gestión de relaciones y documentación, manteniendo flujos de comunicación con los clientes.
Equipo de Especialistas WWSO	Enfocado en cargas de trabajo de ML a gran escala, se encarga de establecer la estructura de compromiso y supervisar las interacciones técnicas.

Otro factor crítico para el éxito del GENIAC fue establecer canales de comunicación robustos entre los clientes y los miembros de AWS. Se creó un canal interno dedicado en Slack para la coordinación del programa, lo que permitió la resolución en tiempo real de problemas y el intercambio de conocimientos.

Arquitecturas de Referencia

La importancia de arquitecturas de referencia sólidas fue otro aprendizaje temprano. En lugar de permitir que cada equipo configurara su propio clúster desde cero, AWS creó plantillas prevalidadas y automatización para dos enfoques principales: **AWS ParallelCluster** y **SageMaker HyperPod**. Estas arquitecturas cubrieron toda la pila, desde computación y red hasta almacenamiento y monitoreo.

AWS ParallelCluster, como herramienta de gestión de clústeres de código abierto, fue invaluable para el entrenamiento de GPU multi-nodo. Simplifica el aprovisionamiento de un clúster HPC basado en Slurm en AWS, utilizando un sencillo archivo YAML para configurar el entorno.

Opciones de Arquitectura	Descripción
AWS ParallelCluster	Automatiza la configuración de clústeres HPC para entrenamiento de ML.
SageMaker HyperPod	Provisión de clústeres de GPU y Trainium para ML a gran escala.

Guías de Implementación Reproducibles y Sesiones de Capacitación Estructuradas

Incluso las mejores arquitecturas de referencia son útiles solo si los equipos saben cómo utilizarlas. Un elemento crítico del éxito del GENIAC fue la disponibilidad de guías de implementación reproducibles y sesiones de capacitación estructuradas a través de talleres. Estos talleres incluyeron sesiones teóricas y prácticas que cubrieron desde los fundamentos de la infraestructura hasta las mejores prácticas para el entrenamiento de grandes modelos en AWS.

Al final de estas sesiones, tanto clientes como ingenieros de AWS habían establecido una base compartida de conocimientos y un conjunto de mejores prácticas. Los equipos trabajaron directamente con los arquitectos de soluciones para desplegar entornos de entrenamiento, validar configuraciones y resolver problemas técnicos en tiempo real.

Retroalimentación de los Clientes

Los participantes del programa GENIAC han expresado su satisfacción con el soporte recibido. Uno de los ejecutivos destacó cómo la aplicación de aprendizaje autónomo mejoró la precisión y la eficiencia de costos en su procesamiento de datos. Otro subrayó que, gracias a las herramientas de AWS, pudieron iniciar rápidamente el entrenamiento de modelos a gran escala.

Resultados y Próximos Pasos

GENIAC ha demostrado que el entrenamiento de FMs a gran escala es fundamentalmente un desafío organizacional, no simplemente de hardware. Gracias a un soporte estructurado, plantillas reproducibles y un equipo de compromiso multifuncional, incluso equipos pequeños pueden ejecutar cargas de trabajo masivas en la nube. El marco de compromiso técnico establecido ha proporcionado valiosos conocimientos sobre el desarrollo de FMs a gran escala, y AWS continúa mejorando sus modelos de compromiso y recursos técnicos para el próximo ciclo de GENIAC.

Este artículo fue elaborado por miembros clave del ciclo 2 del GENIAC de AWS. Para más información, visita el artículo original en [AWS Blogs](https://aws.amazon.com/blogs/machine-learning/beyond-accelerators-lessons-from-building-foundation-models-on-aws-with-japans-geniac-program/).