Una guía integral para dominar el procesamiento y análisis de Big Data con Python.
Este curso te guía paso a paso en la construcción de sistemas de procesamiento de datos masivos usando Python y herramientas modernas del ecosistema Big Data. Aprenderás a diseñar pipelines robustos, analizar grandes volúmenes de datos y escalar tus soluciones en entornos distribuidos.
Dirigido a desarrolladores, científicos de datos e ingenieros que buscan dominar el flujo de datos extremo a extremo, desde la ingesta hasta el análisis, utilizando prácticas profesionales y tecnologías ampliamente adoptadas.
Módulo | Temas clave |
---|---|
🧱 Fundamentos de Ingeniería de Datos | Arquitectura moderna de datos, tipos y formatos de archivos, concepto de pipelines, almacenamiento en crudo vs estructurado |
🛠️ Procesamiento de Datos en Python | pandas vs PySpark, transformaciones distribuidas, limpieza, joins, manejo eficiente de memoria |
🔄 Automatización y Orquestación | Apache Airflow, Prefect, diseño de DAGs, orquestación de tareas, flujos asincrónicos |
🧪 Validación y Testing de Datos | Great Expectations, testing de pipelines con pytest , tipado con mypy , monitoreo de flujos |
🚀 Escalabilidad y Cloud | Despliegue en BigQuery, Snowflake, Redshift, procesamiento distribuido con Spark y Beam, Docker, Kubernetes, serverless |