Automatización de AIOps con Amazon SageMaker: Arquitectura de Soluciones
Amazon SageMaker Unified Studio representa la evolución hacia la unificación de todo el ciclo de vida de datos, análisis, inteligencia artificial (IA) y aprendizaje automático (ML) dentro de un entorno único y gobernado. A medida que las organizaciones adoptan SageMaker Unified Studio para unificar sus flujos de trabajo de datos, análisis e IA, se enfrentan a nuevos desafíos relacionados con la escalabilidad, automatización, aislamiento, multi-tenencia y la integración y entrega continua (CI/CD). Este artículo explora estrategias arquitectónicas y un marco escalable que ayuda a las organizaciones a gestionar entornos multi-tenant, automatizar de manera consistente e incorporar controles de gobernanza mientras escalan sus iniciativas de IA.
Estrategias Arquitectónicas para AIOps
La automatización de AIOps a través de una arquitectura robusta y multi-cuenta de AWS es fundamental para mejorar la seguridad, permitir un aislamiento efectivo de recursos y satisfacer las necesidades de escalabilidad de las organizaciones modernas. Esta solución utiliza servicios compartidos—como la plantificación de proyectos, CI/CD integrado, gobernanza de datos, automatización de pipelines de ML, promoción de modelos y flujos de trabajo de aprobación—para optimizar las operaciones de IA y ML.
Arquitectura Multi-Cuenta
La arquitectura multi-cuenta involucra varios roles clave de usuarios, cada uno contribuyendo a diferentes etapas del flujo de trabajo de IA/ML. Estos roles incluyen:
- Científico de Datos: Desarrolla, experimenta y entrena modelos de ML; colabora en proyectos para construir soluciones utilizando datos y herramientas disponibles.
- Ingeniero de IA/ML: Diseña, implementa y gestiona pipelines de despliegue; configura endpoints de modelos y facilita la integración y pruebas robustas.
- Administrador: Configura y gestiona la infraestructura, acceso de usuarios, perfiles de proyectos y controles de gobernanza para proporcionar operaciones seguras y escalables.
- Oficial de Gobernanza: Supervisa el cumplimiento, la gestión de riesgos y los flujos de trabajo de aprobación; revisa y aprueba modelos para su promoción a entornos de prueba y producción.
Flujo de Trabajo para Operaciones de ML
El siguiente flujo de trabajo describe las operaciones de ML a través de una arquitectura multi-cuenta, comenzando desde la creación inicial del proyecto hasta el despliegue en producción, con controles de gobernanza incorporados en cada etapa. Se recomienda utilizar Amazon EventBridge para los eventos mencionados en este flujo de trabajo:
- El científico de datos crea Project A DEV en el portal de SageMaker Unified Studio.
- Se publica un evento CreateProject en AWS CloudTrail.
- El evento CreateProject activa una función AWS Lambda para configurar los templates de construcción y despliegue en el proyecto.
- Se establece un flujo de trabajo utilizando AWS Step Functions para gestionar el perfil del proyecto y actualizar el repositorio de Git.
- El científico de datos suscribe a un activo en SageMaker Catalog.
- Se actualiza el código del pipeline de construcción y se verifica en el repositorio de Git del proyecto.
- Se activa un pipeline CI/CD basado en la acción de Git.
- El pipeline CI/CD construye los activos y ejecuta el pipeline de Amazon SageMaker AI.
- Se registra el modelo automáticamente en Amazon SageMaker Model Registry.
- El científico de datos líder aprueba el modelo en el registro de modelos.
- El ingeniero de IA valida y configura la información de despliegue.
- Se activa un pipeline CI/CD para el despliegue de prueba.
- Se despliega el modelo en el entorno de prueba.
- El oficial de gobernanza valida los resultados del modelo y aprueba el despliegue en producción.
- Se activa un pipeline CI/CD para el despliegue en producción.
- Se despliega el modelo en el entorno de producción.
Estructura de Cuenta Recomendable
La implementación de una arquitectura multi-cuenta para tu solución AIOps se alinea con las mejores prácticas de AWS Well-Architected. Esta arquitectura incluye cuentas especializadas:
- Cuenta de Servicios Compartidos de IA: Hospeda servicios comunes que serán compartidos entre cuentas y proyectos.
- Cuenta de Desarrollo LOB: Aloja los proyectos de IA en desarrollo para una línea de negocio específica.
- Cuenta de Pruebas LOB: Aloja proyectos de IA en pruebas.
- Cuenta de Producción LOB: Aloja proyectos de IA en producción.
- Cuenta de Gobernanza: Hospeda el dominio de SageMaker Unified Studio y sus componentes de configuración.
Consideraciones para Multi-Tenencia
La multi-tenencia se refiere a la arquitectura donde un único entorno sirve a múltiples equipos o líneas de negocio, asegurando que los datos y recursos de cada inquilino estén separados de manera segura. En la arquitectura AIOps, se recomienda segmentar el entorno SDLC a nivel de línea de negocio para facilitar la multi-tenencia de los proyectos de IA.
A medida que las organizaciones escalan sus iniciativas de IA, la correcta implementación de la arquitectura y la gobernanza son cruciales para equilibrar la innovación con la seguridad y el cumplimiento. En la segunda parte de esta serie, se explorarán implementaciones prácticas y cómo cada rol puede colaborar de manera efectiva desde la creación del proyecto hasta el despliegue en producción.
Para obtener más información sobre Amazon SageMaker y su experiencia de usuario, consulta el artículo Una experiencia integrada para todos tus datos e IA con Amazon SageMaker Unified Studio.
Fuente: Automate AIOps with Amazon SageMaker Unified Studio Projects, Part 1: Solution Architecture
Nota: Este contenido original ha sido modificado con IA y revisado por un especialista.












