Construcción de un Lakehouse Unificado para Sistemas de Recomendación en TikTok

Construyendo un Lakehouse Unificado para Sistemas de Recomendación a Gran Escala con Apache Paimon en TikTok

El sistema de recomendaciones de TikTok es fundamental para la interacción del usuario, ofreciendo flujos de contenido personalizados a miles de millones de usuarios. Con el crecimiento de la plataforma, el equipo ha migrado de modelos tradicionales basados en aprendizaje profundo a modelos de recomendación a gran escala (LRMs) que priorizan las secuencias de comportamiento del usuario. Para respaldar esta evolución, los ingenieros de TikTok han desarrollado una arquitectura de Lakehouse unificado, aprovechando Apache Paimon, para abordar desafíos críticos en la eficiencia, consistencia y escalabilidad de las tuberías de datos. Este artículo detalla el diseño, implementación y resultados de rendimiento de esta arquitectura.

Evolución de la Arquitectura del Modelo de Recomendación de TikTok

La transición del Modelo de Recomendación de Aprendizaje Profundo (DLRM) al Modelo de Recomendación a Gran Escala (LRM) representa un cambio paradigmático. Los DLRMs dependían en gran medida de características dispersas/densas y embeddings de alta dimensión, pero sufrían de limitaciones como la ingeniería manual de características y la pérdida de patrones de comportamiento del usuario secuenciales. Inspirados en el éxito de los modelos de lenguaje a gran escala (LLMs), TikTok ha hecho la transición hacia los LRMs, que incluyen variantes generativas y multimodales. Estos modelos simplifican la ingeniería de características al centrarse en las secuencias de comportamiento del usuario, permitiendo la personalización en tiempo real.

Desafíos en la Producción de Características de Secuencia de Comportamiento del Usuario

A pesar de los beneficios de los LRMs, el equipo enfrentó obstáculos operativos significativos:

Pipelines Fragmentados: Los equipos de negocio mantenían pipelines de características aisladas con esquemas inconsistentes, lo que llevó a esfuerzos de desarrollo redundantes y desperdicio de recursos.
Complejidad de la Arquitectura Lambda: Las tuberías tradicionales de flujo-lote introdujeron sobrecarga operativa y riesgos de inconsistencia de datos.
Latencia y Escalabilidad: Las tuberías requerían días para preparar datos y recursos, obstaculizando la agilidad en la iteración de características.

Diseño de un Lakehouse Unificado para Datos de Comportamiento del Usuario

A medida que los modelos de recomendación a gran escala demostraron beneficios significativos a lo largo de múltiples líneas de negocio, su éxito reveló puntos problemáticos subyacentes en la producción de características de secuencia de comportamiento del usuario que exigían soluciones sistemáticas. Desde la perspectiva empresarial, diferentes equipos construían pipelines de producción de características de manera independiente, cada uno implementando esquemas distintos que no podían ser reutilizados.

Implementación del Lakehouse de Comportamiento del Usuario

Para abordar estos desafíos fundamentales, TikTok decidió construir un activo de datos de comportamiento del usuario que sirviera como una base compartida en todos los escenarios y unidades de negocio. La solución requería un almacenamiento unificado de flujo y lote que pudiera proporcionar capacidades de análisis consistentes y en tiempo real. Apache Paimon emergió como la opción ideal para esta capa de almacenamiento unificado, dado su reconocimiento como una plataforma de Lakehouse de streaming con capacidades de almacenamiento unificado y alto rendimiento de consultas.

Arquitectura de Lakehouse de Cuatro Capas

La implementación del lakehouse de comportamiento del usuario sigue una arquitectura de cuatro capas diseñada cuidadosamente que proporciona tanto flexibilidad como optimización del rendimiento. Desde la base hasta la cima, estas capas incluyen DIM (Capa de Dimensiones), DWD (Detalles del Almacén de Datos), DWS (Servicio del Almacén de Datos) y ADS (Servicio de Datos de Aplicación).

Detalles de Implementación: Procesamiento Unificado de Flujo y Lote

La arquitectura de implementación demuestra una simplicidad elegante mientras mantiene potentes capacidades. La capa DIM opera a través de motores de características que producen continuamente características de ítems y las envían a tiendas en línea para servir en tiempo real. La capa DWD ejecuta trabajos de ETL (Extraer, Transformar, Cargar) en streaming que realizan transformaciones esenciales sobre las acciones de comportamiento del usuario reportadas desde diversas aplicaciones.

Procesamiento por Lote para Relleno de Características y Arranque en Frío

El entrenamiento de modelos offline requiere uniones en el tiempo (PIT) para evitar la filtración de características. La solución de TikTok aprovecha Flink CDC para monitorear cambios en los esquemas y realizar una evolución automática sin intervención manual, mientras que los trabajos de Spark ejecutan uniones PIT entre tablas de comportamiento del usuario y tablas de características de múltiples versiones.

Direcciones Futuras

TikTok planea integrar Paimon con Table Service, como Apache Fluss, para reducir la latencia de extremo a extremo a menos de un segundo, mejorar el rendimiento de consultas ad hoc y expandir el almacenamiento unificado para cubrir todos los casos de uso.

La arquitectura del lakehouse unificado de TikTok, impulsada por Apache Paimon, demuestra un enfoque escalable y eficiente para gestionar datos de comportamiento del usuario para sistemas de recomendación a gran escala, estableciendo un estándar para infraestructuras de datos modernas en plataformas impulsadas por IA.

Fuente: Building a Unified Lakehouse for Large-Scale Recommendation Systems with Apache Paimon at TikTok

Nota: Este contenido original ha sido modificado con IA y revisado por un especialista. Imagen generada por IA.