id	fecha_operacion	numero_operacion	tipo_operacion	monto	moneda	cuenta_origen	cuenta_destino	banco_origen	banco_destino	estado	canal	content_hash	fecha_carga	is_duplicate
1	2025-09-11 06:29:16.043	OP-00000001	DEPOSITO	17312.85	PEN	516-1402086-1-97	—	RIPLEY	—	COMPLETADA	SUCURSAL	5b11e64f620ad6ac	2025-10-05 12:18:32.133	NULL
2	2025-09-18 21:08:16.043	OP-00000002	DEPOSITO	3951.54	PEN	564-2687580-7-87	993-4018282-4-18	RIPLEY	RIPLEY	COMPLETADA	MOBILE	8c12a0984b4f1041	2025-10-05 12:18:32.133	NULL

Ejecución real del pipeline

Salida directa de consola (última exitosa).

Ver logs

======================================================================
ETL PIPELINE EXECUTION
======================================================================
Input file: data/input/operaciones_demo_2025.csv
Database: sqlserver
======================================================================
2025-10-05T17:18:29.351669Z [info     ] pipeline_started               [__main__] input_file=data/input/operaciones_demo_2025.csv pipeline_id=etl_20251005_121829
2025-10-05T17:18:29.352669Z [info     ] extraction_started             [__main__] file=data/input/operaciones_demo_2025.csv
2025-10-05T17:18:29.383177Z [info     ] extraction_completed           [__main__] rows=10500
2025-10-05T17:18:29.383177Z [info     ] validation_started             [__main__] input_rows=10500
2025-10-05T17:18:31.986742Z [info     ] validation_completed           [__main__] invalid_rows=1178 success_rate=0.8878095238095238 valid_rows=9322
2025-10-05T17:18:31.986742Z [info     ] deduplication_started          [__main__] input_rows=9322
2025-10-05T17:18:31.989706Z [info     ] deduplication_completed        [__main__] duplicates_found=0 duplicates_removed=0 final_rows=9322
2025-10-05T17:18:32.028083Z [info     ] loading_started                [__main__] database=sqlserver rows=9322
Connected to SQL Server
Database: ETL_Conciliacion
Table 'dbo.operaciones' created/verified
2025-10-05T17:18:32.458621Z [info     ] loading_completed              [__main__] rows_failed=0 rows_inserted=9322 rows_updated=0
Database connection closed
2025-10-05T17:18:32.458621Z [info     ] pipeline_completed             [__main__] pipeline_id=etl_20251005_121829 processing_time=3.106952 status=success
2025-10-05T17:18:32.473669Z [info     ] metrics_saved                  [__main__] filepath=data\output\metrics\metrics_etl_20251005_121829.json

======================================================================
PIPELINE COMPLETED SUCCESSFULLY
======================================================================
pipeline_id: etl_20251005_121829
status: success
total_input: 10500
total_loaded: 9322
success_rate: 88.78%
duplicates_removed: 0
validation_errors: 100
processing_time: 3.11s
======================================================================

ETL con observabilidad y trazabilidad

Problema real que resuelve

Calidad de datos

Idempotencia

Trazabilidad

Motivación personal

Impacto esperado (KPIs)

Resumen ejecutivo

Arquitectura

Estructura del proyecto

Módulos principales

1. Generador Datos Sintéticos

2. Validación con Pandera

3. Deduplicación

4. Carga SQL

5. Logging y Métricas

6. Reportes Excel

Comandos de ejecución

Resultados de ejecución real

Validación exitosa

Distribución de registros

Datos cargados (preview)

Configuración requerida

Variables de entorno (.env)

SQL Server Setup

Archivos de salida

Logs

Métricas

Reportes Excel

Procesados

Ejecución real del pipeline

Artefactos del pipeline

Highlights técnicos

Tests

Próximos pasos sugeridos

¿Preguntas sobre este proyecto?