Maestría en Ciencia de Datos
Primer Bloque: Otoño

Aprendizaje de Máquina

Aprendizaje de Máquina

Objetivos:

El objetivo es estudiar la teoría y práctica de los métodos más eficientes para resolver problemas en el área de aprendizaje vía datos, enfocándose en técnicas de machine learning tradicional reduciendo la parte de regresión lineal y de redes neuronales, para su entendimiento, diagnóstico, mejora, afinación de hiper-parámetros e interpretación de predicciones (importancia de variables, métodos de asignación de contribuciones).

Temario: 

1. Introducción
1.1 Reglas, algoritmos y aprendizaje máquina

2. La tarea fundamental del aprendizaje supervisado
2.1 El proceso generador de datos
2.2 Error de entrenamiento y de predicción.
2.3 Complejidad y rigidez
2.4 k-vecinos más cercanos

3.Regresión lineal
3.1 Descenso en gradiente
3.2 Interpretación de modelos lineales. Predicción e incertidumbre
3.3 La maldición de la dimensionalidad alta

4.Problemas de clasificación 1
4.1 Estimación de probabilidades de clase
4.2 Medidas de error para clasificación

5.Regresión logística
5.1 Modelo e interpretación
5.2 Descenso en gradiente
5.3 Calibración de probabilidades

6.Problemas de clasificación 2
6.1 Análisis de error en clasificación (precisión-recall, ROC)
6.2 Regresión logística multinomial

7. Regularización y selección de modelo
7.1 Sesgo y varianza de predictores
7.2 Regularización ridge
7.3 Regularización lasso

8. Feature engineering y extensiones del modelo lineal
8.1 Variables cualitativas
8.2 Variables numéricas
8.3 Interacciones
8.4 Splines de regresión

9. Redes neuronales 1
9.1 Automatización de feature engineering y redes neuronales
9.2 Cálculo en redes: feed forward
9.3 Backpropagation

10. Redes neuronales 2
10.1 Descenso estocástico
10.2 Funciones de activación
10.3 Regularización dropout, ridge y lasso para redes
10.4 Ajuste de hiperparámetros

11. Árboles y bosques
11.1 Árboles para regresión y predicción
11.2 Bagging de árboles
11.3 Bosques aleatorios
11.4 Técnicas out of bag para bosques: importancia, error de predicción
11.5 Calibración de probabilidades. Intervalos de predicción

12. Boosting de árboles
12.1 Forward stagewise additive modelling
12.2 Boosting de gradiente
12.3 Funciones de pérdida

13. Mejora y validación de modelos I
13.1 Diagnostico y mejora de modelos
13.2   Diagnósticos de equidad

14. Mejora y validación de modelos II
14.1 Filtración de datos
14.2 Problemas comunes un validación

15. Reducción de dimensionalidad
15.1 Descomposición en valores singulares y aplicaciones

16. Reducción de dimensionalidad 2
16.1 Componentes principales
16.2 Otros algoritmos de reducción de dimensionalidad

17. Clustering
17.1 Algoritmo k-medias
17.2 Evaluación de soluciones de clustering.



El programa de la Maestría en Ciencia de Datos es una iniciativa del ITAM para satisfacer la creciente demanda nacional e internacional de profesionistas con conocimientos sólidos en el modelado a partir de datos (en especial grandes datos) para ayudar a la toma de decisiones estratégicas.