PBO: Arquitectura de Productos de Datos
Primer Bloque: Otoño
Arquitectura de Productos de Datos
Conocer los diferentes elementos que forman parte de un producto de datos.
Conocer las implicaciones de cada uno de esos elementos.
Entender los conceptos básicos de ingeniería de software/ingeniería de datos.
Construir productos de datos de inicio a fin.
Temario:
1. Productos de datos, arquitectura empresarial
2. Cómputo distribuido
2.1 Master, workes
2.2 Procesamiento en paralelo
2.3 Escalamiento vertical, escalamiento horizontal
2.4 Ambiente local, nube
3. Infraestructura
3.1 Seguridad: bastión, tunneling
3.2 AWS: S3, EC2, EMR, RDS
3.3 Conceptos de CI/CD
4. ETL
4.1. Pipeline
4.2 ETL
4.3 Diseño de ETL
4.4Formatos de storage: Parquet, AVRO
5. Orquestadores
5.1. DAG
5.2 Luigi
6. Gobernanza de datos
6.1 Esquema de BD
6.2 Datawarehouse
6.3 Data lake
6.4 Linaje de datos
7. CI/CD
7.1 Unit testing ETL
7.2 Unit testing pandas, marbles
8. Feature engineering
8.1 Pipelines de transformación de datos
8.2 SparkSQL, Modin
9. Gobernanza de modelos
9.1 Linaje
9.2 Unit testing
10. Modelling
10.1 Pyspark
10.2 Sklearn
10.3 H20
10.4 Rapids
10.5 Deuda técnica
10.6 Cálculos éticos
11. Predicciones
11.1 Pipeline de ejecución
12. Delivery
12.1 BD
12.2 API: Flask, Bottle, DJango
12.3 Dashboards: Bokeh, Dash
12.4 Monitoreo de desempeño
13. Post-modelling
13.1 Monitoreo de desempeño
13.2 SLAs