Curso: Aprendizaje automático

Dr. Luis Gerardo de la Fraga

Cuatrimestre enero a abril de 2022.

Este es el contenido del curso

Apuntes del curso:

  1. 26.04.2022 Adaboost. Aprendizaje no supervizado. Ajuste robusto.

  2. 21.04.2022 Convolución con ventanas en OpenCV. Redes profundas con keras

  3. 19.04.2022 Clasificador usando bosque aleatorio y los árboles agregados basados en el gradiente. La operación de convolución.

  4. 07.04.2022 En un problema lineal, maximizar el logaritmo de la verosimilitud se llega a las ecuaciones normales (parte 2/2)

  5. 05.04.2022 En un problema lineal, maximizar el logaritmo de la verosimilitud se llega a las ecuaciones normales (parte 1/2)

  6. 31.03.2022 Clasificar correo electrónico en no spam y spam usando un clasificador de Bayes ingenuo.

  7. 29.03.2022 Clasificadores de Bayes ingenuos.

  8. 15.03.2022 Realización de una red de perceptrones para clasificación

  9. 08.03.2022 Realización de la búsqueda exahustiva en malla para el ajuste de hiperparámetros. Redes neuronales artificiales

  10. 03.03.2022 Árboles de decisión. Ajuste de hiperparámetros

  11. 01.03.2022 Pruebas estadísticas. Árboles de decisión.

  12. 24.02.2022 Validación cruzada para evaluar el modelo realizado.

  13. 22.02.2022 MVS con distribución de clases sobrelapadas.

  14. 17.02.2022 El problema multiclase. Sobre el término de regularización en un problema de regresión.

  15. 15.02.2022 Dos ejemplos de máquinas de soporte con núcleos lineal y con funciones básicas radiales.

  16. 08.02.2022 La máquina de vectores soporte como un problema de programación cuadrática.

  17. 03.02.2022 Variables categóricas. Maximización del margen

  18. 01.02.2022 Datos faltantes, normalizaciones y análisis de componentes principales para reducir la dimensionalidad de los datos.

  19. 27.01.2022 El clasificador de k vecinos más cercanos. Normalización de datos.

  20. 25.01.2022 La regresión logística.

  21. 20.01.2022 Clasificación. Solución a un problema de clasificación con la regresión logística.

  22. 18.01.2022 La función gausiana y la función de verosimilitud.

  23. 13.01.2022 Realización de una regresión lineal con science kit learn en python.

  24. 11.01.2022 Regresión con un modelo lineal.

  25. 06.01.2022 Introducción a python y matplotlib.

Tareas del curso:

  1. Clasificación con agregación de árboles de decisión
    Fecha de entrega 28.04.2022
    1. Esquemas de votos en un ensable (voting.pdf), replicar los resultados y compararlos con los obtenidos aquí en clase con el bosque aleatorio y árboles agregados basados en el gradiente.
    2. Usar adaboost en un problema de clasificación (adaboost.pdf) Mostrar todas las gráficas de la importancia de las características para cada algoritmo usado. ¿Son semejantes? ¿Son distintas?
    3. Se debe de sintonizar para el adaboots el valor de "n_estimators" y "learning_rate" usando una malla.

  2. Clasificación de correos electrónicos en no spam y spam
    Fecha de entrega 07.04.2022
    1. Leer el apunte de la clase del día 31.03.2022
    2. Los datos con los archivos de correo electrónico están disponibles aquí.
    3. Los programas para obtener la matriz de datos y el vector de clases está disponible aquí.
  3. Clasificación usando redes de perceptrones
    Fecha de entrega 24.03.2022
    1. Aplicar redes reuronales para clasificar la base de datos iris.
    2. Van a usar validación cruzada con cinco dobleces
    3. El número de neuronas en la capa oculta 0, 1, ...,5. Reportan en una tabla los resultados.
    4. Reportan la función de decisión y grafican esta función para el mejor modelo.
    5. Usen el valor de alpha por defecto (0.0001). Según la documentación, tienen que usar el algoritmo "lbfgs" para optimizar la red.
  4. Clasificación usando árboles de decisión
    Fecha de entrega 15.03.2022
    1. Con los siguientes datos, contestar las preguntas siguientes
    2. ¿Cuál fue el razonamiento del médico para recetar cada medicina? ¿Se puede ver la relación entre los valores en sangre y la medicina que el médico recetó?
    3. Deben usar validación cruzada
    4. Visualizar el mejor árbol
    5. Realizar la importancia de las características
    6. Y van a usar las tres las características más importantes, rehacer el clasificador y lo comparan con el obtenido usando todas las características.

  5. Lectura de un artículo de investigación
    Fecha de entrega 08.03.2022
    1. Leer el artículo: A Performance Evaluation of Machine Learning Techniques for Breast Ultrasound Classification Francisco A. González-Luna; Juanita Hernández-López; Wilfrido Gomez-Flores DOI: 10.1109/ICEEE.2019.8884547
    2. Contestar los siguientes puntos
    3. ¿Qué características se usaron? ¿Cuántas?
    4. ¿Cómo se realizaron las pruebas?
    5. ¿Cómo se realizó la figura 3?
    6. ¿Para qué sirve la prueba Kruskal-Wallis?
    7. ¿Qué software se utilizó para realizar los clasificadores?
    8. ¿Tienen ustedes el software para poder replicar los resultados si tuvieses acceso a los datos de los autores?
  6. Máquinas de vectores soporte
    Fecha de entrega 22.02.2022
    1. Usar el núcleo de tangente hiperbólica para el mismo problema de los datos anidados de la clase del 15 de febrero.
    2. Realizar un programa en python con la función de decisión
    3. Mostrar gráficamente la función de decisión
    4. ¿Se usan menos vectores soporte que con funciones básicas radiales?
    5. ¿Es efectivo el clasificador realizado?
  7. Análisis de componentes principales
    Fecha de entrega 10.02.2022
    1. Reducir a dos características usando el ACP la base de datos Iris
    2. Mostrar la gráfica de las características reducidas
    3. Realizar un clasificador usando los k vecinos más cercanos con los datos reducidos.

  8. Clasificación con el método de k vecinos más cercanos
    Fecha de entrega 03.02.2022
    1. Van a usar todos los datos de la base iris.
    2. Mostrar la gráfica de todos los datos
    3. La gráfica de los datos de entrenamiento
    4. La gráfica de los datos de prueba (antes de la clasificación)
    5. Las gráficas de los datos de prueba ya clasificados. Es una gráfica para cada valor de k
    6. Y finalmente la gráfica de -k contra las exactitudes con los datos de entrenamiento y de prueba.

  9. Clasificación con un modelo lineal usando la regresión logística
    Fecha de entrega 27.01.2022

    1. Aplicar la regresión logística usando solo las dos primeras características de la base de datos iris (y las dos primeras clases)
    2. Se tiene que reportar: la gráfica de todos los datos, la
    3. gráfica de los datos de entrenamiento y la gráfica del modelo (una linea recta),
    4. gráficas de los datos de prueba y la gráfica del modelo, y
    5. una tabla con los valores de la exactitud para los datos de entrenamiento y de prueba.
  10. Regresión con modelos lineales
    Fecha de entrega 20.01.2022

    1. Generar otros datos, para que el ruido sea distinto
    2. Cambiar la semilla para particionar los datos de forma aleatoria.
    3. Ajustar modelos con n=1 hasta 10, n es el número de coeficientes
    4. Presentar los valores de los coeficientes según n
    5. Graficar de n contra error_rms para todos los modelos
    6. Aplicar la regularización Ridge y Lasso para el mejor modelo del punto anterior, para los valores de alpha=0.1, 1, 10 y 100

Última actualización: 26.04.2022