This dashboard is the final surface of a six-project data engineering platform built entirely on Google Cloud. Raw CSV files go in at one end; interactive analytics come out at the other. Every layer in between (ingestion, transformation, quality checks, orchestration, and deployment) is version-controlled, CI/CD-tested, and documented with decision rationale.
End-to-End Pipeline
What Was Built
Synthetic insurance data (policyholders, policies, claims, payments, coverages) loaded into BigQuery. Dataform manages 5 staging tables, 3 intermediate transforms, 6 dimension/fact tables, and 2 report views. 16 data quality assertions run on every deploy.
A Cloud Run container runs the full extract-load-transform cycle on a schedule. Cloud Run + Cloud Scheduler was chosen over Cloud Composer: same reliability at a fraction of the cost for a single-DAG workload.
Pub/Sub topic receives claim events in real time. A Cloud Run subscriber validates, deduplicates, and writes to BigQuery. Demonstrates event-driven architecture alongside the batch ELT pattern.
Dataform assertions enforce referential integrity, uniqueness, and row-level conditions. If a quality check fails, the pipeline stops before bad data reaches the analytics layer.
BigQuery slot reservations, budget alerts, and resource labeling. The whole platform runs on GCP's free tier and pay-per-query pricing, with a total monthly cost under $5 USD.
A GLM (Generalized Linear Model) scores 144K policies with a predicted pure premium. Output lands in dev_pricing_ml.model_scoring and feeds the Pricing Adequacy page of this dashboard.
Key Technical Decisions
- Cloud Run over Cloud Composer — Airflow is overkill for a single pipeline. Cloud Run + Scheduler costs ~$0 vs $300+/mo for Composer.
- Dataform over dbt — Native BigQuery integration, no additional infrastructure, free tier covers this workload.
- FastAPI over Streamlit — Full control over HTML, CSS, and performance. Streamlit's default look signals "prototype" in a portfolio.
- GCS + BigQuery over Postgres — The project demonstrates cloud-native data engineering, not application-database patterns.
Este dashboard es la cara visible de una plataforma de ingeniería de datos con seis proyectos construida completamente sobre Google Cloud. Por un lado entran archivos CSV crudos; por el otro salen analíticos interactivos listos para tomar decisiones. Cada capa intermedia (ingesta, transformación, calidad, orquestación y despliegue) está versionada en Git, validada por CI/CD y documentada con el razonamiento detrás de cada decisión técnica.
Pipeline de Punta a Punta
Lo Que Se Construyó
Datos sintéticos de seguros (asegurados, pólizas, siniestros, pagos, coberturas) cargados en BigQuery. Dataform gestiona 5 tablas de staging, 3 transformaciones intermedias, 6 tablas dimensionales y de hechos, y 2 vistas de reportes. 16 validaciones de calidad corren en cada despliegue.
Un contenedor en Cloud Run ejecuta el ciclo completo de extracción, carga y transformación de forma programada. Se eligió Cloud Run + Cloud Scheduler en lugar de Cloud Composer: misma confiabilidad a una fracción del costo para una carga de trabajo de un solo DAG.
Un tópico de Pub/Sub recibe eventos de siniestros en tiempo real. Un suscriptor en Cloud Run valida, deduplica y escribe a BigQuery. Demuestra arquitectura orientada a eventos junto con el patrón batch del ELT.
Las assertions de Dataform verifican integridad referencial, unicidad y condiciones a nivel de fila. Si alguna validación falla, el pipeline se detiene antes de que datos incorrectos lleguen a la capa de analíticos.
Reservaciones de slots de BigQuery, alertas de presupuesto y etiquetado de recursos. La plataforma completa corre aprovechando la capa gratuita de GCP y cobro por consulta, con un costo mensual total menor a $5 USD.
Un GLM (Modelo Lineal Generalizado) califica 144 mil pólizas con una prima pura estimada. La salida aterriza en dev_pricing_ml.model_scoring y alimenta la página de Adecuación de Precios de este dashboard.
Decisiones Técnicas Clave
- Cloud Run en vez de Cloud Composer — Airflow es demasiado para un solo pipeline. Cloud Run + Scheduler cuesta prácticamente $0 versus $300+/mes de Composer.
- Dataform en vez de dbt — Integración nativa con BigQuery, cero infraestructura adicional, y la capa gratuita cubre esta carga de trabajo.
- FastAPI en vez de Streamlit — Control total sobre HTML, CSS y rendimiento. El look de Streamlit grita "prototipo" en un portafolio profesional.
- GCS + BigQuery en vez de Postgres — El proyecto demuestra ingeniería de datos cloud-native, no patrones de base de datos de aplicación.