Tutorial de Implementación Simplificada del Qwen3 en Alibaba Cloud

Guía Simplificada para Desplegar el Modelo Qwen3 en Alibaba Cloud

La implementación de modelos de aprendizaje automático en la nube se ha vuelto esencial en el ecosistema de la inteligencia artificial. Este artículo proporciona una guía detallada sobre cómo desplegar el modelo Qwen3 en el servicio de contenedores de Alibaba Cloud, específicamente en Kubernetes (ACK) utilizando recursos de GPU. A través de esta guía, los desarrolladores podrán aprovechar al máximo las capacidades de computación en la nube para sus aplicaciones de inteligencia artificial.

Antecedentes del Modelo Qwen3

Qwen3 se destaca como el primer modelo de inferencia híbrido de la serie Qwen, y su modelo insignia, Qwen3-235B-A22B, ha demostrado un rendimiento competitivo en pruebas de referencia en áreas como matemáticas y capacidades generales. Además, la variante más pequeña, Qwen3-30B-A3B, supera a otros modelos utilizando solo un 10% de los parámetros de activación de su predecesor. Gracias a su soporte para múltiples modos de pensamiento, Qwen3 permite a los usuarios controlar la profundidad de pensamiento del modelo según la tarea específica.

Requisitos Previos para el Despliegue

Antes de comenzar el despliegue del modelo Qwen3, es fundamental que los usuarios tengan configurado un clúster ACK que contenga nodos acelerados por GPU. Esto asegurará que se puedan gestionar de forma eficiente las cargas de trabajo intensivas en recursos. Para ello, se recomienda seguir los pasos para crear un clúster de ACK con nodos GPU y conectar el cliente kubectl al clúster.

Crear un clúster de ACK con nodos GPU: Instrucciones aquí.
Conectar el cliente kubectl: Ver guía.

Pasos para el Despliegue del Modelo

Paso 1: Preparar los Archivos del Modelo Qwen3-8B

Para iniciar, es necesario descargar los archivos del modelo Qwen3-8B desde ModelScope. Asegúrese de que el complemento git-lfs esté instalado, y si no lo está, ejecute los siguientes comandos:

git lfs install
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/Qwen/Qwen3-8B
cd Qwen3-8B/
git lfs pull

Paso 2: Crear un Servicio de Inferencia

Una vez que los archivos del modelo estén listos, se debe desplegar un servicio de inferencia. Utilice el siguiente comando para iniciar el servicio llamado qwen3:

apiVersion: apps/v1
kind: Deployment
metadata:
  labels:
    app: qwen3
  name: qwen3
  namespace: default
spec:
  replicas: 1
  selector:
    matchLabels:
      app: qwen3
  template:
    metadata:
      labels:
        app: qwen3
    spec:
      containers:
      - command:
        - sh
        - -c
        - vllm serve /models/Qwen3-8B/ --port 8000
        image: kube-ai-registry.cn-shanghai.cr.aliyuncs.com/kube-ai/vllm:v0.8.4
        ports:
        - containerPort: 8000
          name: restful
          protocol: TCP

Paso 3: Verificar el Servicio de Inferencia

Para asegurarse de que el servicio de inferencia está funcionando correctamente, ejecute el siguiente comando para configurar el reenvío de puertos:

kubectl port-forward svc/qwen3 8000:8000

Luego, envíe una solicitud al servicio de inferencia con el siguiente comando:

curl -H "Content-Type: application/json" http://localhost:8000/v1/chat/completions -d '{"model": "/models/Qwen3-8B/", "messages": [{"role": "user", "content": "Say this is a test!"}], "max_tokens": 512}'

Uso de ACS en Clústeres ACK Pro

El servicio ACK también soporta el uso de recursos de computación de ACS en pods sin servidor, lo que permite una escalabilidad superior y un mejor rendimiento en cargas de trabajo intensivas. Para activar esta función, es necesario seguir unos pasos similares a los del despliegue en ACK.

Para más información sobre el despliegue del modelo Qwen3 y otros temas relacionados, no dude en consultar la documentación de Alibaba Cloud o visitar el blog de Alibaba Cloud.

Nota: Este contenido original ha sido modificado con IA y revisado por un especialista.