Estimation of the main causes of university dropouts through the use of machine learning techniques
Keywords:
Dropout, sampling, multivariate, machine learning, principal components, clustering, k-meansAbstract
According to the World Bank report for 2015, university student dropout in Colombia had reached a rate of 42%, ranking second in Latin America, reflecting a social and economic problem of great impact. In accordance with the above, the present study carries out an analysis to identify the causes that influenced student desertion from a Higher Education Institution in the city of Bogotá, applying computational techniques such as Machine Learning.To identify the causes, unsupervised learning techniques were used, such as principal component analysis (PCA) and singular value decomposition (SVD) to reduce the dimensionality to 24 components with 71% of the variability explained and the k-means algorithm made it possible to group into three groups with information collected from 207 students who dropped out during 2020. This analysis allows establishing patterns of association between some variables such as institutional aspects, finding similarities and differences, in addition to identifying factors of relevant desertion in the population, with economic difficulties being the main cause of desertion in men (67.6%) of the mechanical and environmental engineering programs.
References
Bacos, C. A. Machine learning and education in the human age: a review of emerging technologies. In Science and information conference (pp. 536-543). Springer, Cham. (2019, April)
Bravo Núñez A. et al. Reducción de dimensiones: revisión y aplicaciones en clasificación automática. 2020.
Casanova, J. R., Cervero Fernández-Castañón, A., Núñez Pérez, J. C., Almeida, L. S., & Bernardo Gutiérrez, A. B. (2018). Factors that determine the persistence and dropout of university students. Psicothema, 30.
Castiblanco W. Modelo de ausentismo y deserción retención y permanencia estudiantil en la universidad ECCI. 2020.
Castillo, G. T. U., & Sánchez, B. A. M. (2021). Factores que inciden en la deserción universitaria. TZHOECOEN, 13(2), 56-65.
Chaves, V. E. J., & Torres, M. G. (2019). Análisis de la Educación Inicial en Paraguay a través de las Técnicas de Aprendizaje Automático. Revista de la Sociedad Científica del Paraguay, 24(2), 293-304.
Giraldo Otálvaro, J. D. (2021). Estudio de las técnicas de reducción de dimensión basadas en componentes principales: Análisis de componentes principales no lineales.
Gutiérrez, D., Díaz, J. F. V., & López, J. (2021). Indicadores de deserción universitaria y factores asociados. EducaT: Educación virtual, Innovación y Tecnologías, 2(1), 15-26.
Hernández Sampieri, Roberto. (2018). Metodología de la investigación: las rutas: cuantitativa y cualitativa y mixta. México: Mc Graw Hill- educación.
Jolliffe, IT (2002). Representación gráfica de datos utilizando componentes principales. Análisis de componentes principales, 78-110.
Kuvcak, Danijel y Jurieié. (2018). Aprendizaje máquina en educación: Una encuesta de las tendencias actuales de investigación. Annals of DAAAM Proceedings.
Martínez, J. (2022). Clustering (Agrupamiento), K-Means con ejemplos en Python. IArtificial.net. https://www.iartificial.net/clustering-agrupamiento-kmeans-ejemplos-en-python/
Mysiak, K. (2015). Explicación de la agrupación en clústeres de DBSCAN. Hacia la ciencia de datos. https://towardsdatascience.com/explaining-dbscan-clustering-18eaf5c83b31
Nainggolan, R. Perangin-angin, E. Simarmata, and A. F. Tarigan. (2019). Improved the performance of the k-means cluster using the sum of squared error (sse) optimized by using the elbow method. In Journal of Physics: Conference Series, volume 1361, page 012015. IOP Publishing.
Navarro Céspedes J. M. (2008). Análisis de Componentes Principales y Análisis de Regresión para datos categóricos. Aplicación en HTA. PhD thesis, Universidad Central “Marta Abreu” de Las Villas.
Patiño Garzón L. and A. M. Cardona Pérez. (2012). Revisión de algunos estudios sobre la deserción estudiantil universitaria en Colombia y Latinoamérica. Theoría: Ciencia, Arte y Humanidades, 21(1):9 – 20. ISSN 0717196X. URL https://search-ebscohost-com.craiustadigital.usantotomas.edu.co/login.aspx?direct=true&db=a9h&AN=112611591&lang=es&site=ehost-live.
Sánchez L. G., G. A. Osorio, and J. F. Suárez. (2008). Introducción a kernel acp y otros métodos espectrales aplicados al aprendizaje no supervisado. Revista Colombiana de Estadística, 31(1):19–40.
Suárez Rodríguez J. M. (2015). Caracterización de los hurtos a personas que afectan la localidad los mártires de la ciudad de Bogotá mediante el uso de los algoritmos de agrupamiento de minería de datos espaciales dbscan y k-means. Tesis de Ingeniería Catastral y Geodesia. Universidad Distrital Francisco José de Caldas.
Tinto V. (1975). Dropout from higher education: A theoretical synthesis of recent research. Review of Educational Research, 45(1):89–125. ISSN 00346543, 19351046. URL http://www.jstor.org/stable/1170024.
Toledo, J. A. J., & Pereira, S. R. T. (2015). Caracterización de la deserción estudiantil en educación superior con minería de datos. Revista Tecnológica-ESPOL, 28(5).
Vélez White C. et al. (2008). Deserción estudiantil en la educación superior colombiana. Elementos para su diagnóstico y Tratamiento. Ministerio de Educación Nacional. Bogotá. Colombia, pages 7–34
Vries, W. D., León Arenas, P., Romero Muñoz, J. F., & Hernández Saldaña, I. (2011). ¿Desertores o decepcionados? Distintas causas para abandonar los estudios universitarios. Revista de la educación superior, 40(160), 29-49.
Zúñiga, J. (2021). El algoritmo k-means aplicado a clasificación y procesamiento de imágenes. Disponible en https://www.unioviedo.es/compnum/laboratorios_py/kmeans/kmeans.html
Downloads
Published
Versions
- 2021-12-16 (4)
- 2021-12-16 (3)
- 2022-09-29 (2)
- 2021-12-16 (1)
Issue
Section
License
Authors who publish in this journal agree to the following terms:
a. Authors give their rights to the article in a non-exclusive way for the magazine to be published for the first time by the journal as well as licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgment of authorship of work and initial publication in this magazine.
b. Authors can establish separate additional agreements for non-exclusive distribution of the version of the work published in the journal (for example, to an institutional repository or to publish it in a book), with an acknowledgment of its initial publication in this journal.
c. Authors are allowed and encouraged to disseminate their work electronically (e.g., in institutional repositories or your own website) prior to and during the submission process, as it can lead to productive exchanges, as well as a citation more early and most of published work (See the Effect of Open Access) (in English).