Optimización de los Puntos de Finalización de Modelos de Salesforce con los Componentes de Inferencia de Amazon SageMaker
La colaboración entre Salesforce y AWS ha dado lugar a avances significativos en la gestión de modelos de inteligencia artificial. En este artículo, se analiza cómo la integración de los Componentes de Inferencia de Amazon SageMaker ha permitido a Salesforce optimizar la utilización de GPU, mejorar la eficiencia de los recursos y lograr importantes ahorros de costos en sus operaciones.
El Desafío de Hospedar Modelos para Inferencia
Desplegar modelos de manera eficiente y rentable es un reto crítico para las organizaciones, independientemente de su tamaño. El equipo de la Plataforma de IA de Salesforce se encarga de implementar modelos propios, como CodeGen y XGen, en Amazon SageMaker y optimizarlos para la inferencia. Estos modelos varían en tamaño y requisitos de rendimiento, lo que complica aún más el proceso de implementación.
- Modelos más grandes (20-30 GB) con patrones de tráfico bajos generan subutilización en instancias de múltiples GPUs.
- Modelos de tamaño medio (aproximadamente 15 GB) que manejan cargas de trabajo de alto tráfico requieren capacidades de procesamiento de baja latencia y alto rendimiento.
Solución: Optimización del Despliegue de Modelos
Los Componentes de Inferencia de Amazon SageMaker permiten implementar múltiples modelos en un único punto de finalización de SageMaker. Esto mejora la utilización de recursos y reduce los costos de implementación de modelos. Cada modelo puede definirse con políticas de escalado específicas para adaptarse a los patrones de uso, optimizando así los costos de infraestructura.
- Los modelos se asignan de forma óptima a las instancias de ML para maximizar la utilización y reducir costos.
- Cada modelo se escala de forma independiente, garantizando la asignación de recursos óptimos para requisitos específicos.
- La escalabilidad dinámica de SageMaker permite mantener la disponibilidad y minimizar el cómputo ocioso.
Configuración y Gestión de Puntos de Finalización de Inferencia
Para crear un punto de finalización de SageMaker, se debe definir la configuración del endpoint, el tipo de instancia y la cantidad inicial de instancias. Cada modelo se configura como un componente de inferencia, especificando recursos como aceleradores y memoria.
Con políticas de escalado automático, SageMaker ajusta el número de copias de los componentes de inferencia según la demanda. Esto permite reducir costos y mantener un rendimiento óptimo.
Resultados Obtenidos por Salesforce
Salesforce ha logrado implementar una infraestructura que permite el uso eficiente de múltiples modelos en el mismo endpoint. Esta estrategia no solo ha reducido costos operativos, sino que también ha mejorado el rendimiento de modelos más pequeños al utilizar GPUs de alto rendimiento.
- Asignación de recursos optimizada mediante el uso compartido eficiente de GPU.
- Ahorros significativos en costos a través de una gestión inteligente de recursos y escalado dinámico.
- Mejora del rendimiento en modelos más pequeños sin costos excesivos.
Transformación a Través de Componentes de Inferencia
La implementación de los Componentes de Inferencia de Amazon SageMaker ha transformado la gestión de la infraestructura de IA de Salesforce, permitiendo una reducción de hasta ocho veces en los costos de implementación y mantenimiento. Este enfoque ha permitido a Salesforce escalar a cientos de modelos, optimizando costos mientras se asegura un rendimiento predecible.
Con la capacidad de realizar actualizaciones de modelos de manera más eficiente y flexible, Salesforce está bien posicionada para aprovechar futuras innovaciones en inteligencia artificial y mejorar continuamente su oferta de servicios.
Para más información sobre cómo Salesforce ha logrado implementar soluciones de alta eficiencia con Amazon SageMaker, puedes consultar el artículo original en este enlace.
Nota: Este contenido original ha sido modificado con IA y revisado por un especialista. Imagen generada por IA.












