Estimation of the main causes of university dropouts through the use of machine learning techniques

Authors

  • Juber Orlando Gutiérrez Villarreal Universidad Santo Tomás
  • Lida Rubiela Fonseca Gómez Universidad Santo Tomás
  • Wilmer Pineda-Ríos Universidad Nacional de Colombia

Keywords:

Dropout, sampling, multivariate, machine learning, principal components, clustering, k-means

Abstract

According to the World Bank report for 2015, university student dropout in Colombia had reached a rate of 42%, ranking second in Latin America, reflecting a social and economic problem of great impact. In accordance with the above, the present study carries out an analysis to identify the causes that influenced student desertion from a Higher Education Institution in the city of Bogotá, applying computational techniques such as Machine Learning.To identify the causes, unsupervised learning techniques were used, such as principal component analysis (PCA) and singular value decomposition (SVD) to reduce the dimensionality to 24 components with 71% of the variability explained and the k-means algorithm made it possible to group into three groups with information collected from 207 students who dropped out during 2020. This analysis allows establishing patterns of association between some variables such as institutional aspects, finding similarities and differences, in addition to identifying factors of relevant desertion in the population, with economic difficulties being the main cause of desertion in men (67.6%) of the mechanical and environmental engineering programs.

References

Bacos, C. A. Machine learning and education in the human age: a review of emerging technologies. In Science and information conference (pp. 536-543). Springer, Cham. (2019, April)

Bravo Núñez A. et al. Reducción de dimensiones: revisión y aplicaciones en clasificación automática. 2020.

Casanova, J. R., Cervero Fernández-Castañón, A., Núñez Pérez, J. C., Almeida, L. S., & Bernardo Gutiérrez, A. B. (2018). Factors that determine the persistence and dropout of university students. Psicothema, 30.

Castiblanco W. Modelo de ausentismo y deserción retención y permanencia estudiantil en la universidad ECCI. 2020.

Castillo, G. T. U., & Sánchez, B. A. M. (2021). Factores que inciden en la deserción universitaria. TZHOECOEN, 13(2), 56-65.

Chaves, V. E. J., & Torres, M. G. (2019). Análisis de la Educación Inicial en Paraguay a través de las Técnicas de Aprendizaje Automático. Revista de la Sociedad Científica del Paraguay, 24(2), 293-304.

Giraldo Otálvaro, J. D. (2021). Estudio de las técnicas de reducción de dimensión basadas en componentes principales: Análisis de componentes principales no lineales.

Gutiérrez, D., Díaz, J. F. V., & López, J. (2021). Indicadores de deserción universitaria y factores asociados. EducaT: Educación virtual, Innovación y Tecnologías, 2(1), 15-26.

Hernández Sampieri, Roberto. (2018). Metodología de la investigación: las rutas: cuantitativa y cualitativa y mixta. México: Mc Graw Hill- educación.

Jolliffe, IT (2002). Representación gráfica de datos utilizando componentes principales. Análisis de componentes principales, 78-110.

Kuvcak, Danijel y Jurieié. (2018). Aprendizaje máquina en educación: Una encuesta de las tendencias actuales de investigación. Annals of DAAAM Proceedings.

Martínez, J. (2022). Clustering (Agrupamiento), K-Means con ejemplos en Python. IArtificial.net. https://www.iartificial.net/clustering-agrupamiento-kmeans-ejemplos-en-python/

Mysiak, K. (2015). Explicación de la agrupación en clústeres de DBSCAN. Hacia la ciencia de datos. https://towardsdatascience.com/explaining-dbscan-clustering-18eaf5c83b31

Nainggolan, R. Perangin-angin, E. Simarmata, and A. F. Tarigan. (2019). Improved the performance of the k-means cluster using the sum of squared error (sse) optimized by using the elbow method. In Journal of Physics: Conference Series, volume 1361, page 012015. IOP Publishing.

Navarro Céspedes J. M. (2008). Análisis de Componentes Principales y Análisis de Regresión para datos categóricos. Aplicación en HTA. PhD thesis, Universidad Central “Marta Abreu” de Las Villas.

Patiño Garzón L. and A. M. Cardona Pérez. (2012). Revisión de algunos estudios sobre la deserción estudiantil universitaria en Colombia y Latinoamérica. Theoría: Ciencia, Arte y Humanidades, 21(1):9 – 20. ISSN 0717196X. URL https://search-ebscohost-com.craiustadigital.usantotomas.edu.co/login.aspx?direct=true&db=a9h&AN=112611591&lang=es&site=ehost-live.

Sánchez L. G., G. A. Osorio, and J. F. Suárez. (2008). Introducción a kernel acp y otros métodos espectrales aplicados al aprendizaje no supervisado. Revista Colombiana de Estadística, 31(1):19–40.

Suárez Rodríguez J. M. (2015). Caracterización de los hurtos a personas que afectan la localidad los mártires de la ciudad de Bogotá mediante el uso de los algoritmos de agrupamiento de minería de datos espaciales dbscan y k-means. Tesis de Ingeniería Catastral y Geodesia. Universidad Distrital Francisco José de Caldas.

Tinto V. (1975). Dropout from higher education: A theoretical synthesis of recent research. Review of Educational Research, 45(1):89–125. ISSN 00346543, 19351046. URL http://www.jstor.org/stable/1170024.

Toledo, J. A. J., & Pereira, S. R. T. (2015). Caracterización de la deserción estudiantil en educación superior con minería de datos. Revista Tecnológica-ESPOL, 28(5).

Vélez White C. et al. (2008). Deserción estudiantil en la educación superior colombiana. Elementos para su diagnóstico y Tratamiento. Ministerio de Educación Nacional. Bogotá. Colombia, pages 7–34

Vries, W. D., León Arenas, P., Romero Muñoz, J. F., & Hernández Saldaña, I. (2011). ¿Desertores o decepcionados? Distintas causas para abandonar los estudios universitarios. Revista de la educación superior, 40(160), 29-49.

Zúñiga, J. (2021). El algoritmo k-means aplicado a clasificación y procesamiento de imágenes. Disponible en https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html

Downloads

Published

2021-12-16 — Updated on 2021-12-16

Versions

How to Cite

Estimation of the main causes of university dropouts through the use of machine learning techniques. (2021). Aglala, 12(2), 293-311. https://revistas.uninunez.edu.co/aglala/article/view/2105