Maestría en Ciencia de Datos
Segundo Bloque: Otoño

Arquitectura de Productos de Datos

Objetivos:

  • Conocer los diferentes elementos que forman parte de un producto de datos.
  • Conocer las implicaciones de cada uno de esos elementos.
  • Entender los conceptos básicos de ingeniería de software/ingeniería de datos.
  • Construir productos de datos de inicio a fin.

Temario: 

1. Productos de datos, arquitectura empresarial

2. Cómputo distribuido
2.1 Master, workes
2.2 Procesamiento en paralelo
2.3 Escalamiento vertical, escalamiento horizontal
2.4 Ambiente local, nube

3. Infraestructura
3.1 Seguridad: bastión, tunneling
3.2 AWS: S3, EC2, EMR, RDS
3.3 Conceptos de CI/CD

4. ETL
4.1. Pipeline
4.2 ETL
4.3 Diseño de ETL
4.4Formatos de storage: Parquet, AVRO

5. Orquestadores
5.1. DAG
5.2 Luigi

6. Gobernanza de datos
6.1 Esquema de BD
6.2 Datawarehouse
6.3 Data lake
6.4 Linaje de datos

7. CI/CD
7.1 Unit testing ETL
7.2 Unit testing pandas, marbles

8. Feature engineering
8.1 Pipelines de transformación de datos
8.2 SparkSQL, Modin

9. Gobernanza de modelos
9.1 Linaje
9.2 Unit testing

10. Modelling
10.1 Pyspark
10.2 Sklearn
10.3 H20
10.4 Rapids
10.5 Deuda técnica
10.6 Cálculos éticos

11. Predicciones
11.1 Pipeline de ejecución

12. Delivery
12.1 BD
12.2 API: Flask, Bottle, DJango
12.3 Dashboards: Bokeh, Dash
12.4 Monitoreo de desempeño

13. Post-modelling
13.1 Monitoreo de desempeño
13.2 SLAs



El programa de la Maestría en Ciencia de Datos es una iniciativa del ITAM para satisfacer la creciente demanda nacional e internacional de profesionistas con conocimientos sólidos en el modelado a partir de datos (en especial grandes datos) para ayudar a la toma de decisiones estratégicas.