dc.contributor.advisor | Cuello De Avila, Silvio Rafael | spa |
dc.contributor.author | Ropero Silva, Miguel Eduardo | spa |
dc.coverage.spatial | Bucaramanga (Santander, Colombia) | spa |
dc.date.accessioned | 2020-06-26T21:34:48Z | |
dc.date.available | 2020-06-26T21:34:48Z | |
dc.date.issued | 2018 | |
dc.identifier.uri | http://hdl.handle.net/20.500.12749/3439 | |
dc.description.abstract | El proyecto “MEJORAR EL MODELO DE ESTIMACIÓN DE RIESGO DE DESERCIÓN DE LOS ESTUDIANTES DE PREGRADO DE LA UNIVERSIDAD AUTÓNOMA DE BUCARAMANGA EMPLEANDO HERRAMIENTAS BUSINESS INTELLIGENCE SOPORTADAS EN SOFTWARE LIBRE” creado por Miguel Eduardo Ropero Silva para obtener el título de Magister en SOFTWARE LIBRE, y dirigido por el Ingeniero Silvio Rafael Cuello de Ávila. presenta los resultados de la aplicación de técnicas de minería de datos para la predicción de la deserción académica con el uso del software de distribución libre Weka y el algoritmo de clasificación de árboles de decisión J48.
En la investigación se obtuvieron los datos académicos, financieros y psicológicos de los estudiantes de primer ingreso en los programas de pregrado de los periodos 2014-02, 2015-01, 2015-02 y 2016-01, los cuales, fueron analizados, modelados y evaluados a través de la metodología de minería de datos CRISP-DM.
Los registros obtenidos también fueron evaluados a través del modelo matemático (empírico) de deserción desarrollado por la UNAB. Los resultados de deserción del modelo de minería de datos y del modelo empírico, fueron cruzados contra los resultados reales de deserción en los periodos evaluados para determinar cuál de ellos ofrecía un mayor porcentaje de precisión. Finalmente, fueron identificadas las principales variables involucradas en la deserción de un estudiante de acuerdo a la información previamente analizada. | spa |
dc.description.sponsorship | Universitat Oberta de Catalunya UOC | spa |
dc.description.tableofcontents | INTRODUCCIÓN
1. PLANTEAMIENTO DEL PROBLEMA ...................................................... 18
2. JUSTIFICACIÓN ...................................................................................... 21
3.OBJETIVOS .............................................................................................. 23
3.1. OBJETIVO GENERAL .......................................................................... 23
3.2. OBJETIVOS ESPECÍFICOS ................................................................ 23
4. RESULTADOS ESPERADOS ...........................................................…... 24
5. ANTECEDENTES .................................................................................... 25
6. MARCO TEÓRICO .................................................................................. 39
6.1 DESERCIÓN EN LA EDUCACIÓN SUPERIOR ..................................... 39
6.2 BUSINESS INTELLIGENCE (BI) …........................................................ 42
6.3. DATA MINING ........................................................................................ 43
6.4. METODOLOGÍAS DE MINERÍA DE DATOS ………………………….... 46
6.4.1 Metodología CRISP-DM ...................................................................... 47
6.4.2 Metodología SEMMA ........................................................................... 49
6.4.3 Proceso KDD - Knowledge Discovery in Databases ............................ 50
6.5 MODELOS DE MINERÍA DE DATOS ….................................................. 52
6.5.1 Modelo Descriptivo .............................................................................. 52
6.5.2 Modelo Predictivo ................................................................................ 53
6.6 MÉTODOS DE MINERÍA DE DATOS ..................................................... 53
6.6.1 Método de Clasificación ....................................................................... 53
6.6.2 Método de Regresión .......................................................................... 54
6.6.3 Método de Agrupamiento (Clustering) ................................................. 54
6.6.4 Método de Asociación ......................................................................... 55
6.7 TÉCNICAS DE MINERÍA DE DATOS ….................................................. 55
6.7.1 Arboles de Decisión ............................................................................. 55
6.7.2 Redes Neuronales Artificiales .............................................................. 56
6.7.3 Clasificadores bayesianos ................................................................... 57
6.7.4 Reglas de Clasificación ....................................................................... 58
6.7.5 Regresión Lineal ................................................................................. 58
6.7.6 Reglas de Asociación .......................................................................... 59
6.7.7 K-Vecinos ............................................................................................ 59
6.7.8 K-Medias ............................................................................................. 60
6.8 HERRAMIENTAS SOFTWARE PARA LA MINERÍA DE DATOS .......….. 61
6.8.1 Weka ................................................................................................... 61
6.8.2 RapidMiner .......................................................................................... 62
6.8.3 Orange ................................................................................................ 63
7. MARCO METODOLÓGICO ..................................................................... 64
7.1 METODOLOGÍAS IMPLEMENTADAS ................................................... 64
7.2 HIPÓTESIS ……………………............................................................... 65
7.3 POBLACIÓN Y MUESTRA ..................................................................... 65
7.4 RECOLECCIÓN DE LA INFORMACIÓN ................................................ 66
7.5 PLAN DE INVESTIGACIÓN ………........................................................ 66
7.5.1 Aplicación de la Metodología CRIPS-DM ............................................. 67
7.5.2 Descripción de los mecanismos de análisis de Datos .......................... 68
8. RESULTADOS ……………………………..…………………………………. 71
8.1 SOFTWARE DE MINERÍA DE DATOS ……………………………........... 71
8.2 ALGORITMO DE CLASIFICACIÓN …..…………………………….......... 72
8.3 INTRODUCCIÓN A WEKA ………………………………………............... 73
8.3.1 Instalación ………………….……………………………......................... 73
8.3.2 Interfaz de Preprocesamiento ………………………….......................... 75
8.3.3 Pestaña de Clasificación ….……………………………......................... 77
8.3.4 Resultados Weka ………….……………………………......................... 80
8.4 CONOCIMIENTO DEL NEGOCIO …….....……………………………….. 80
8.5 COMPRENSIÓN DE LOS DATOS …..…………………………………….. 81
8.6 PREPARACIÓN DE LOS DATOS ……..…………………………………... 89
8.7 MODELADO DE LOS DATOS ………..……………………………………. 90
8.8 ANÁLISIS GENERAL DE LOS DATOS ………………………………….... 90
8.9 ANÁLISIS POR PERIODO ACADÉMICO ……………………………….... 92
8.9.1 Análisis Periodo 2014-02 ………………………………………………… 93
8.9.2 Análisis Periodo 2015-01 ………………………………………………… 99
8.9.3 Análisis Periodo 2015-02 ………………………………………………… 101
8.9.4 Análisis Periodo 2016-01 ………………………………………………… 104
8.10 ANÁLISIS POR PERIODO ACADÉMICO ACUMULADO …………....... 108
8.10.1 Periodos 2014-02 y 2015-01 ………………………………………….... 108
8.10.2 Periodos 2014-02, 2015-01 y 201502 …………………………………. 110
8.10.3 Periodos 2014-02, 2015-01, 201502 y 2016-01 ……………………… 113
8.11 ANÁLISIS POR PERIODO ACADÉMICO ACUMULADO SIN
VARIABLE RENDIMIENTO ACADÉMICO ………….........................…
115
8.11.1 Periodos 2014-02 y 2015-01 …………………………………………....
116
8.11.2 Periodos 2014-02, 2015-01 y 201502 ………………………………….
117
8.11.3 Periodos 2014-02, 2015-01, 201502 y 2016-01 ……………………….
119
8.12 ANÁLISIS DE RESULTADOS …………................................................
122
8.12.1 Análisis de Variables Determinantes de Deserción …………………..
128
8.12.2 Comparación del modelo BI contra el modelo empírico de la UNAB
129
9. CONCLUSIONES ……………………………………………………………..
133
10. RECOMENDACIONES Y TRABAJOS FUTUROS ……………………...
135
BIBLIOGRAFÍA 136
ANEXOS 140 | spa |
dc.format.mimetype | application/pdf | spa |
dc.language.iso | spa | spa |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/co/ | * |
dc.subject | Universidad Autónoma de Bucaramanga UNAB | |
dc.title | Mejorar el modelo de estimación de riesgo de deserción de los estudiantes de pregrado de la Universidad Autónoma de Bucaramanga empleando herramientas business intelligence soportadas en software libre | spa |
dc.title.translated | IMPROVE THE RISK ESTIMATION MODEL OF UNDERGRADUATE STUDENTS OF THE UNIVERSITY AUTÓNOMA DE BUCARAMANGA USING BUSINESS INTELLIGENCE TOOLS SUPPORTED IN FREE SOFTWARE | eng |
dc.degree.name | Magíster en Software Libre | spa |
dc.coverage | Bucaramanga (Colombia) | spa |
dc.publisher.grantor | Universidad Autónoma de Bucaramanga UNAB | spa |
dc.rights.local | Abierto (Texto Completo) | spa |
dc.publisher.faculty | Facultad Ingeniería | spa |
dc.publisher.program | Maestría en Software Libre | spa |
dc.description.degreelevel | Maestría | spa |
dc.type.driver | info:eu-repo/semantics/masterThesis | |
dc.type.local | Tesis | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
dc.subject.keywords | Systems Engineering | eng |
dc.subject.keywords | Free software | eng |
dc.subject.keywords | Data Mining | eng |
dc.subject.keywords | Computer program | eng |
dc.subject.keywords | Algorithms | eng |
dc.subject.keywords | Free software | eng |
dc.subject.keywords | University dropout | eng |
dc.subject.keywords | Technical aspects | eng |
dc.subject.keywords | Investigations | eng |
dc.subject.keywords | Analysis | eng |
dc.subject.keywords | Academic desertion | eng |
dc.subject.keywords | Decision trees | eng |
dc.subject.keywords | Classification techniques | eng |
dc.identifier.instname | instname:Universidad Autónoma de Bucaramanga - UNAB | spa |
dc.identifier.reponame | reponame:Repositorio Institucional UNAB | spa |
dc.type.hasversion | info:eu-repo/semantics/acceptedVersion | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.rights.accessrights | http://purl.org/coar/access_right/c_abf2 | spa |
dc.relation.references | Ropero Silva, Miguel Eduardo (2018). Mejorar el modelo de estimación de riesgo de deserción de los estudiantes de pregrado de la Universidad Autónoma de Bucaramanga empleando herramientas bussines intelligence soportadas en software libre. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB, Universitat Oberta de Catalunya UOC | spa |
dc.relation.references | Amaya, Y. y Barrientos, E. y Heredia, D. (2015). Student dropout predictive model using data mining techniques. IEEE Latin America Transactions, vol. (13). | spa |
dc.relation.references | Azoumana, K. (2013). Análisis de la deserción estudiantil en la Universidad Simón Bolívar, facultad Ingeniería de Sistemas, con técnicas de minería de datos. Pensamiento Americano, 41-5 | spa |
dc.relation.references | Bouckaert, R. (2010). WEKA---Experiences with a java open-source project. The Journal of Machine Learning Research, vol. (11), pp. 2533-2541. Recuperado de http://dl.acm.org/citation.cfm?id=1953016 | spa |
dc.relation.references | Cabena, P. (1998). Discovering Data mining From Concept To Implementation. Estados Unidos: Prentice Hall | spa |
dc.relation.references | Castellanos Guarín, L. (2015). Incorporación de Elementos de Inteligencia de Negocios al Análisis de Deserción Estudiantil de la universidad Autónoma de Bucaramanga (Tesis de Maestría). Universidad Autónoma de Bucaramanga, Colombia. | spa |
dc.relation.references | Chapman, P. y Clinton, J. y Kerber, R. y Khabaza, T. y Reinartz, T. y Shearer, C. y Wirth, R. (2000). CRISP-DM 1.0. Recuperado de ftp://ftp.software.ibm.com/software/analytics/spss/support/Modeler/Documentation/14/UserManual/CRISP-DM.pdf | spa |
dc.relation.references | Demšar, J. (2016). Orange: Data mining toolbox in python. The Journal of Machine Learning Research, vol. (14), pp. 2349-2353. Recuperado de http://dl.acm.org/citation.cfm?id=2567736&CFID=789665709&CFTOKEN=93305719 | spa |
dc.relation.references | Departamento Nacional de Planeación. (2016). Visión Colombia II Centenario. Recuperado de http://www.mineducacion.gov.co/cvn/1665/article-95980.html | spa |
dc.relation.references | Ekkachai, N. Jatsada, S. Nittaya, K. (2012). Classification Model Induction For Student Recruiting, Latest Advances In Educational Technologies. Recuperado de http://www.wseas.us/e-library/conferences/2012/Singapore/EDUC/EDUC-18.pdf | spa |
dc.relation.references | Fayyad, U. y Piatetsky-Shapiro, G. y Smyth, P. (1996). From data mining to knowledge discovery: an overview. AI Magazine, vol. (17), pp. 37-54. Recuperado de https://www.aaai.org/ojs/index.php/aimagazine/article/viewFile/1230/1131 | spa |
dc.relation.references | Han, J. y Kamber, M. y Pei, J. (2001). Data mining: Concepts and techniques. Amsterdam: Morgan Kaufmann Publishers. | spa |
dc.relation.references | Hernández Orallo, J. y Ramírez Quintana, M. y Ferri Ramírez, C. (2004). Introducción a la Minería de Datos. Pearson Educación | spa |
dc.relation.references | Howson, C. (2007). Successful business intelligence: Secrets to making bi a killer App. Estados Unidos: McGraw-Hill Education | spa |
dc.relation.references | International Educational Data Mining Society. (s.f.). Educational Data Mining. Recuperado el 10 de abril de 2016 de http://educationaldatamining.org | spa |
dc.relation.references | Kumar, S. y Pal, S. (2012). Data mining: A prediction for performance improvement of engineering students using classification. World of Computer Science and Information Technology Journal, vol. (2), pp. 51-56. | spa |
dc.relation.references | The University Of Waikato (s.f.). Weka 3 - data mining with open source machine learning software in java. Recuperado de http://www.cs.waikato.ac.nz/ml/weka/ | spa |
dc.relation.references | Ministerio de Educación Nacional. (2010). Deserción estudiantil en la educación superior colombiana. Recuperado el 15 abril de 2016 de http://www.mineducacion.gov.co/sistemasdeinformacion/1735/articles-254702_libro_desercion.pdf | spa |
dc.relation.references | Ministerio de Educación Nacional. (2015a). Estrategias Para la Permanencia en Educación Superior: Experiencias Significativas. Recuperado de http://www.colombiaaprende.edu.co/html/micrositios/1752/articles-350844_pdf.pdf. | spa |
dc.relation.references | Ministerio de Educación Nacional (2015b). Guía para la implementación del modelo de gestión de permanencia y graduación estudiantil en instituciones de educación superior. Recuperado de http://www.colombiaaprende.edu.co/html/micrositios/1752/articles-355193_guia_.pdf | spa |
dc.relation.references | Ministerio de Educación Nacional (2016). Estadísticas de deserción y graduación 2015. Recuperado de http://www.colombiaaprende.edu.co/html/ micrositios/1752/articles-350629_estadisticas_pdf2015.pdf | spa |
dc.relation.references | Moine, J. y Haedo, A. y Gordillo, S. (2001). Estudio comparativo de metodologías para minería de datos. XIII Workshop de Investigadores en Ciencias de la Computación. Recuperado de http://sedici.unlp.edu.ar/handle/10915/20034 | spa |
dc.relation.references | Muenchen, B. (2017). The Popularity of Data Science Software. Recuperado de http://r4stats.com/articles/popularity | spa |
dc.relation.references | Oracle Help Center (2016). Data Warehousing and Business Intelligence. Recuperado de https://docs.oracle.com/cd/B28359_01/datamine.111/
b28129/regress.htm | spa |
dc.relation.references | Parr Rud, O. (2000). Data mining cookbook: Modeling data for marketing, risk, and customer relationship management. United States: Wiley, John & Sons. | spa |
dc.relation.references | Rangra, K. (2014). Comparative study of data mining tools. International Journal of Advanced Research in Computer Science and Software Engineering, vol. (04), pp. 6 | spa |
dc.relation.references | Remco, R. Eibe, F. (2016). Weka Manual for Version 3-8-1. Recuperado de http://www.cs.waikato.ac.nz/ml/weka/documentation.html | spa |
dc.relation.references | Rohanizadeh, S. y Moghadam, M. (2010). A proposed data mining methodology and its application to industrial procedures. Journal of Industrial Engineering, vol. (4), pp. 37-50 | spa |
dc.relation.references | Sauter, V. (2011). Decision support systems for business intelligence. New Jersey, Estados Unidos: United Kingdom: Wiley-Blackwell. | spa |
dc.relation.references | Society for Learning Analytics Research – SoLAR. (2014). About SOLAR. Recuperado el 10 de abril de 2016 de http://educationaldatamining.org/ | spa |
dc.relation.references | Statistical Analysis System - SAS Institute Inc (2003). Data Mining Using SAS Enterprise Miner: A Case Study Approach. Recuperado de http://support.sas.com/documentation/onlinedoc/miner/casestudy_59123.pdf | spa |
dc.relation.references | Timaran Pereira, R. (2009). Una lectura sobre deserción universitaria en estudiantes de pregrado desde la perspectiva de la Minería de Datos. Recuperado el 20 de mayo de 2016 de http://www.redalyc.org/html/1053/105317327011/ | spa |
dc.relation.references | Turban, E. y Sharda, R. y Denle, D. y King, D. (2013). Business intelligence: A managerial perspective on Analytics. Boston, Estados Unidos: Prentice Hall | spa |
dc.relation.references | Universidad Autónoma de Bucaramanga (2016a). Acerca de la UNAB. Recuperado de http://unab.edu.co/nosotros/acerca-de | spa |
dc.relation.references | Universidad Autónoma de Bucaramanga (2016b). Bienestar Universitario. Recuperado de http://unab.edu.co/nosotros/bienestar-universitario | spa |
dc.relation.references | University of Ljubljana (2016). License Orange. Recuperado de http://orange.biolab.si/license/ | spa |
dc.relation.references | Valenzuela, J. Flores, M. (2014). Fundamentos de Investigación Educativa. Ciudad de México, México: Editorial digital del tecnológico de Monterrey. | spa |
dc.relation.references | Vercellis, C. (2011). Business intelligence: Data mining and optimization for decision making. United States: Wiley, John & Sons. | spa |
dc.relation.references | Witten, I. y Frank, E. y Hall, M. (2005). Data mining: Practical machine learning tools and techniques. San Francisco, CA: Morgan Kaufmann Publishers. | spa |
dc.contributor.googlescholar | Cuello De Avila, Silvio Rafael [0g-Gf7AAAAAJ] | |
dc.subject.lemb | Ingeniería de sistemas | spa |
dc.subject.lemb | Software libre | spa |
dc.subject.lemb | Data Mining | spa |
dc.subject.lemb | Programa para computador | spa |
dc.subject.lemb | Algoritmos | spa |
dc.subject.lemb | Software libre | spa |
dc.subject.lemb | Deserción universitaria | spa |
dc.subject.lemb | Aspectos técnicos | spa |
dc.subject.lemb | Investigaciones | spa |
dc.subject.lemb | Análisis | spa |
dc.description.abstractenglish | The project "IMPROVE THE RISK ESTIMATION MODEL OF UNDERGRADUATE STUDENTS OF THE UNIVERSITY AUTÓNOMA DE BUCARAMANGA USING BUSINESS INTELLIGENCE TOOLS SUPPORTED IN FREE SOFTWARE" created by Miguel Eduardo Ropero Silva to obtain the title of Master in FREE SOFTWARE, and directed by Engineer Silvio Rafael Cuello de Ávila, presents the results of the application of data mining techniques for the prediction of academic desertion with the use of the free distribution software Weka and the classification algorithm of decision trees J48.
In the research the academic, financial and psychological data of first-year students in the undergraduate programs of the periods 2014-02, 2015-01, 2015-02 and 2016-01 were obtained, which were analyzed, modeled and evaluated through the CRISP-DM data mining methodology.
The records obtained were also evaluated through the mathematical model (empirical) of desertion developed by the UNAB. The desertion results of the data mining model and the empirical model were crossed against the actual results of desertion in the periods evaluated to determine which of them offered a greater percentage of accuracy. Finally, the main variables involved in the desertion of a student were identified according to the information previously analyzed. | eng |
dc.subject.proposal | Deserción académica | spa |
dc.subject.proposal | Minería de datos | spa |
dc.subject.proposal | Arboles de decisión | spa |
dc.subject.proposal | Técnicas de clasificación | spa |
dc.subject.proposal | Algoritmo J48 | spa |
dc.subject.proposal | Weka | spa |
dc.type.redcol | http://purl.org/redcol/resource_type/TM | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 2.5 Colombia | * |
dc.coverage.campus | UNAB Campus Bucaramanga | spa |
dc.description.learningmodality | Modalidad Presencial | spa |