Fluss: Almacenamiento Streaming para Analítica de Datos en Tiempo Real

«`html

Fluss: Redefiniendo el Almacenamiento en Streaming para el Análisis de Datos en Tiempo Real y la IA

En un panorama donde la análisis de datos en tiempo real y la inteligencia artificial son cada vez más cruciales para la toma de decisiones empresariales, Apache Fluss (Incubando) se presenta como una solución innovadora para el almacenamiento en streaming. Este artículo, inspirado en la charla magistral de Jark Wu en Flink Forward Asia Singapore 2025, explora cómo Fluss está diseñado para superar las limitaciones de las infraestructuras de datos tradicionales, ofreciendo capacidades avanzadas para el procesamiento analítico y de IA.

Los Desafíos de la Infraestructura de Datos Tradicional

La mayoría de las infraestructuras de datos actuales dependen en gran medida de Apache Kafka, que actúa como el corazón de la comunicación entre microservicios y la recopilación de logs a gran escala. Sin embargo, cuando se trata de obtener información en tiempo real, es necesario procesar los datos en streaming y transformarlos mediante herramientas como Apache Flink. Esto requiere escribir de nuevo los datos en temas de Kafka en múltiples capas, lo que puede resultar en una complejidad operativa considerable.

Esta duplicidad de datos genera altos costos y complicaciones, ya que se deben mantener múltiples copias de la misma información en diferentes sistemas, como Redis, ClickHouse y Iceberg, lo que a menudo resulta en silos de datos aislados. Este problema se agrava por la falta de capacidad de consulta de Kafka, que no está diseñado para ser consultable, lo que obliga a los usuarios a transferir datos a sistemas OLAP.

Desventajas de Kafka para las Necesidades Analíticas

Búsqueda de Clave-Valor para Enriquecimiento: Kafka no soporta búsquedas nativas de clave-valor, lo que fuerza a los usuarios a duplicar datos en almacenes como Redis.
Consulta y Exploración de Datos: La imposibilidad de consultar directamente los temas de Kafka limita la exploración de datos y la creación de dashboards en tiempo real.
Procesamiento por Lotes y Lagos de Datos: La necesidad de copiar datos a formatos como Iceberg para crear un lago de datos crea más copias y costos adicionales.

Fluss: Un Nuevo Paradigma para el Almacenamiento en Streaming

Fluss representa un avance significativo en la tecnología de almacenamiento en streaming, permitiendo latencias de nivel sub-segundo para lecturas y escrituras en streaming. Su arquitectura se basa en Apache Arrow, lo que proporciona potentes capacidades analíticas y un rendimiento optimizado para aplicaciones de IA.

Ventajas Clave de Fluss

Capacidad Analítica Fuerte: La capacidad de realizar pruning de columnas y particiones durante las operaciones de lectura optimiza el uso de la red.
Actualizaciones y Búsquedas en Tiempo Real de Alto Rendimiento: Fluss permite realizar búsquedas de clave-valor en tiempo real, eliminando la necesidad de almacenes separados para enriquecimiento.
Almacenamiento por Niveles con Integración en Lago de Datos: Fluss puede mantener datos «calientes» en almacenamiento local y gestionar eficientemente los datos «fríos» en un lago de datos, garantizando accesibilidad y costo-efectividad.
Lectura Unificada para Acceso a Datos Integrado: Union Read combina datos calientes y fríos, permitiendo una transición fluida entre datos por lotes y en streaming.

Fluss en Producción: Escala y Casos de Uso en el Mundo Real

Fluss no es solo un concepto teórico; ya se encuentra en producción a gran escala en Alibaba, donde se está migrando el sistema interno de Kafka a Fluss para casos de uso analíticos en tiempo real. Actualmente, Fluss gestiona más de 3 PB de datos, con una tasa de ingesta impresionante de 40 GB por segundo y la capacidad de realizar hasta 500,000 consultas por segundo en una sola tabla.

Casos de Uso Específicos en Alibaba

Recopilación de Logs y Análisis en Tiempo Real: Fluss ha permitido a Taobao reducir costos de almacenamiento en un 30% y tráfico de lectura en un 70% mediante la optimización del almacenamiento de logs.
Unión Delta para Uniones de Streaming a Gran Escala: Este enfoque ha eliminado la necesidad de mantener un estado grande dentro de los trabajos de Flink, mejorando significativamente la estabilidad y el rendimiento.

Hoja de Ruta Futura de Fluss: IA Multimodal y Datos Abiertos

La hoja de ruta de Fluss incluye el soporte para formatos de lago de datos abiertos, la integración de IA multimodal y la creación de un cliente Python que facilitará la conexión con bibliotecas populares como Pandas. Este desarrollo se alinea con las crecientes demandas en la infraestructura de datos, donde la interoperabilidad y la capacidad de manejar datos en tiempo real son primordiales.

El futuro de Fluss se perfila como un componente esencial para la infraestructura de datos, optimizando el almacenamiento y procesamiento para aplicaciones de IA y análisis en tiempo real.

Para más información, visita el blog de Apache Fluss: Apache Fluss.

«`