Cuatrimestre enero a abril de 2022.
Este es el contenido del curso
26.04.2022 Adaboost. Aprendizaje no supervizado. Ajuste robusto.
21.04.2022 Convolución con ventanas en OpenCV. Redes profundas con keras
31.03.2022 Clasificar correo electrónico en no spam y spam usando un clasificador de Bayes ingenuo.
29.03.2022 Clasificadores de Bayes ingenuos.
15.03.2022 Realización de una red de perceptrones para clasificación
01.03.2022 Pruebas estadísticas. Árboles de decisión.
24.02.2022 Validación cruzada para evaluar el modelo realizado.
22.02.2022 MVS con distribución de clases sobrelapadas.
17.02.2022 El problema multiclase. Sobre el término de regularización en un problema de regresión.
15.02.2022 Dos ejemplos de máquinas de soporte con núcleos lineal y con funciones básicas radiales.
08.02.2022 La máquina de vectores soporte como un problema de programación cuadrática.
27.01.2022 El clasificador de k vecinos más cercanos. Normalización de datos.
25.01.2022 La regresión logística.
20.01.2022 Clasificación. Solución a un problema de clasificación con la regresión logística.
18.01.2022 La función gausiana y la función de verosimilitud.
13.01.2022 Realización de una regresión lineal con science kit learn en python.
11.01.2022 Regresión con un modelo lineal.
06.01.2022 Introducción a python y matplotlib.
- Esquemas de votos en un ensable (voting.pdf), replicar los resultados y compararlos con los obtenidos aquí en clase con el bosque aleatorio y árboles agregados basados en el gradiente.
- Usar adaboost en un problema de clasificación (adaboost.pdf) Mostrar todas las gráficas de la importancia de las características para cada algoritmo usado. ¿Son semejantes? ¿Son distintas?
- Se debe de sintonizar para el adaboots el valor de "n_estimators" y "learning_rate" usando una malla.
- Leer el apunte de la clase del día 31.03.2022
- Los datos con los archivos de correo electrónico están disponibles aquí.
- Los programas para obtener la matriz de datos y el vector de clases está disponible aquí.
- Aplicar redes reuronales para clasificar la base de datos iris.
- Van a usar validación cruzada con cinco dobleces
- El número de neuronas en la capa oculta 0, 1, ...,5. Reportan en una tabla los resultados.
- Reportan la función de decisión y grafican esta función para el mejor modelo.
- Usen el valor de alpha por defecto (0.0001). Según la documentación, tienen que usar el algoritmo "lbfgs" para optimizar la red.
- Con los siguientes datos, contestar las preguntas siguientes
- ¿Cuál fue el razonamiento del médico para recetar cada medicina? ¿Se puede ver la relación entre los valores en sangre y la medicina que el médico recetó?
- Deben usar validación cruzada
- Visualizar el mejor árbol
- Realizar la importancia de las características
- Y van a usar las tres las características más importantes, rehacer el clasificador y lo comparan con el obtenido usando todas las características.
- Leer el artículo: A Performance Evaluation of Machine Learning Techniques for Breast Ultrasound Classification Francisco A. González-Luna; Juanita Hernández-López; Wilfrido Gomez-Flores DOI: 10.1109/ICEEE.2019.8884547
- Contestar los siguientes puntos
- ¿Qué características se usaron? ¿Cuántas?
- ¿Cómo se realizaron las pruebas?
- ¿Cómo se realizó la figura 3?
- ¿Para qué sirve la prueba Kruskal-Wallis?
- ¿Qué software se utilizó para realizar los clasificadores?
- ¿Tienen ustedes el software para poder replicar los resultados si tuvieses acceso a los datos de los autores?
- Usar el núcleo de tangente hiperbólica para el mismo problema de los datos anidados de la clase del 15 de febrero.
- Realizar un programa en python con la función de decisión
- Mostrar gráficamente la función de decisión
- ¿Se usan menos vectores soporte que con funciones básicas radiales?
- ¿Es efectivo el clasificador realizado?
- Reducir a dos características usando el ACP la base de datos Iris
- Mostrar la gráfica de las características reducidas
- Realizar un clasificador usando los k vecinos más cercanos con los datos reducidos.
- Van a usar todos los datos de la base iris.
- Mostrar la gráfica de todos los datos
- La gráfica de los datos de entrenamiento
- La gráfica de los datos de prueba (antes de la clasificación)
- Las gráficas de los datos de prueba ya clasificados. Es una gráfica para cada valor de k
- Y finalmente la gráfica de -k contra las exactitudes con los datos de entrenamiento y de prueba.
Clasificación con un modelo lineal usando la regresión logística
Fecha de entrega 27.01.2022
- Aplicar la regresión logística usando solo las dos primeras características de la base de datos iris (y las dos primeras clases)
- Se tiene que reportar: la gráfica de todos los datos, la
- gráfica de los datos de entrenamiento y la gráfica del modelo (una linea recta),
- gráficas de los datos de prueba y la gráfica del modelo, y
- una tabla con los valores de la exactitud para los datos de entrenamiento y de prueba.
Regresión con modelos lineales
Fecha de entrega 20.01.2022
- Generar otros datos, para que el ruido sea distinto
- Cambiar la semilla para particionar los datos de forma aleatoria.
- Ajustar modelos con n=1 hasta 10, n es el número de coeficientes
- Presentar los valores de los coeficientes según n
- Graficar de n contra error_rms para todos los modelos
- Aplicar la regularización Ridge y Lasso para el mejor modelo del punto anterior, para los valores de alpha=0.1, 1, 10 y 100
Última actualización: 26.04.2022