Automatiza Documentos Multi-Página con Reseña Humana en AWS AI

Automatiza Documentos Multi-Página con Reseña Humana en AWS AI

 

Optimización del Procesamiento de Documentos Múltiples con Amazon Bedrock y SageMaker AI

En el entorno actual, las organizaciones enfrentan desafíos significativos al gestionar grandes volúmenes de documentos multi-página que requieren un procesamiento inteligente para extraer información precisa. Si bien la automatización ha mejorado este proceso, la experiencia humana sigue siendo esencial para verificar la precisión y la calidad de los datos en ciertos escenarios.

Introducción a Amazon Bedrock Data Automation

En marzo de 2025, AWS lanzó Amazon Bedrock Data Automation, una herramienta que permite a los desarrolladores automatizar la generación de conocimientos valiosos a partir de contenido multimodal no estructurado, incluidos documentos, imágenes, vídeos y audios. Esta solución optimiza los flujos de trabajo de procesamiento de documentos al automatizar la extracción, transformación y generación de información a partir de contenido no estructurado, reduciendo tareas que consumen tiempo como la preparación de datos y la gestión de modelos.

Amazon Bedrock Data Automation simplifica tareas complejas como la clasificación, normalización y validación de documentos, incorporando además puntuaciones de confianza que garantizan la explicabilidad y mitigan los errores, ofreciendo así perspectivas fiables a partir de fuentes de datos no estructurados.

Integración de Revisión Humana en los Flujos de Trabajo

A pesar de las capacidades avanzadas de Amazon Bedrock Data Automation, existen escenarios donde el juicio humano es invaluable. Aquí es donde la integración con Amazon SageMaker AI se convierte en una solución potente de extremo a extremo. Al incorporar bucles de revisión humana en el flujo de trabajo de procesamiento de documentos, las organizaciones pueden mantener altos niveles de precisión mientras maximizan la eficiencia de procesamiento.

  • Validar predicciones de IA cuando la confianza es baja.
  • Manejar casos extremos y excepciones de manera efectiva.
  • Garantizar el cumplimiento normativo a través de la supervisión adecuada.
  • Lograr alta precisión mientras se maximiza la automatización.
  • Crear bucles de retroalimentación para mejorar el rendimiento del modelo con el tiempo.

Entendiendo las Puntuaciones de Confianza

Las puntuaciones de confianza son fundamentales para determinar cuándo invocar una revisión humana. Estas puntuaciones representan el porcentaje de certeza que Amazon Bedrock Data Automation tiene respecto a la precisión de la extracción de datos. A medida que se optimizan los modelos para el Error de Calibración Esperado (ECE), se logra una calibración más precisa, lo que se traduce en puntuaciones de confianza más fiables.

En los flujos de trabajo de procesamiento de documentos, las puntuaciones de confianza se interpretan generalmente como:

Puntuación de ConfianzaInterpretación
Alta (90–100%)Alta certeza sobre la extracción.
Media (70–89%)Certeza razonable con algún potencial de error.
Baja (<70%)Alta incertidumbre, probablemente requiera verificación humana.

Descripción General de la Solución

La arquitectura a continuación proporciona una solución sin servidor para procesar documentos multi-página con bucles de revisión humana utilizando Amazon Bedrock Data Automation y SageMaker AI.

El flujo de trabajo incluye los siguientes pasos:

  1. Los documentos se cargan en un bucket de Amazon S3 que actúa como punto de entrada para el procesamiento.
  2. Una regla de Amazon EventBridge detecta automáticamente nuevos objetos en el bucket y activa la función AWS Step Functions que orquesta el pipeline de procesamiento.
  3. La función bda-document-processor de AWS Lambda se ejecuta, invocando Amazon Bedrock Data Automation con el blueprint adecuado.
  4. Amazon Bedrock Data Automation analiza el documento, extrayendo campos clave con puntuaciones de confianza y almacenando la salida procesada en otro bucket de S3.
  5. Se invoca la función bda-classifier que evalúa las puntuaciones de confianza contra umbrales predefinidos.
  6. Los documentos con puntuaciones por debajo del umbral se envían a SageMaker AI para revisión humana.
  7. Los datos validados y corregidos se almacenan en un bucket de S3.
  8. Una vez que se escriben los resultados de SageMaker AI en Amazon S3, se ejecuta el agregador bda-a2i que actualiza la salida de Amazon Bedrock Data Automation con los nuevos valores revisados por humanos.

Requisitos Previos y Despliegue de la Solución

Para implementar esta solución, es necesario tener instalado el AWS Cloud Development Kit, Node.js y Docker en la máquina de despliegue. El script de construcción realiza el empaquetado y despliegue de la solución.

Conclusiones sobre el Proceso de Documentos Multi-Página

La combinación de Amazon Bedrock Data Automation y SageMaker AI proporciona una eficiencia de automatización junto con una precisión de nivel humano, tanto para documentos de una página como para documentos multi-página. Se invita a las organizaciones a explorar este patrón para sus propios desafíos de procesamiento de documentos.

Para más información sobre las soluciones de inteligencia de documentos en AWS, se puede visitar la documentación de Amazon Bedrock Data Automation y SageMaker AI.

Fuente: AWS Blog

 

Nota: Este contenido original ha sido modificado con IA y revisado por un especialista.

Deja una respuesta