Mostrar el registro sencillo del ítem

dc.contributor.advisorArizmendi Pereira, Carlos Julio
dc.contributor.authorNaranjo Reyes, Kevin Alejandro
dc.coverage.spatialBucaramanga (Santander, Colombia)spa
dc.date.accessioned2022-01-25T12:10:32Z
dc.date.available2022-01-25T12:10:32Z
dc.date.issued2021
dc.identifier.urihttp://hdl.handle.net/20.500.12749/15350
dc.description.abstractSe aplicó una serie de modelos que predicen el Índice de Calidad del Aire (ICA) a partir de las publicaciones realizadas por los habitantes de Bucaramanga en Twitter, para determinar la calidad del aire en la ciudad. Se seleccionó el mejor modelo a partir de diferentes métricas con base en el accuracy de la clasificación. Para ello, se recopilaron mediciones reales del ICA en varios puntos de la ciudad y se hizo la extracción de Tweets para la misma serie temporal. Al emplear distintos algoritmos de reducción de dimensionalidad junto con técnicas de clasificación, tales técnicas son FSCNCA, Forward Selection, LDA y Redes Neuronales, se desarrollaron los modelos de predicción y se seleccionó el de mayor porcentaje de clasificación. El modelo que emplea FSCNCA como técnica de reducción de dimensionalidad y LDA como clasificador fue el que obtuvo el mejor porcentaje de clasificación, con un Accuracy de 69.07% en el conjunto Validation.spa
dc.description.tableofcontentsResumen…………………………………………………………………..….....….......…3 Listado de tablas………………………………………………….……...……….........…4 Listado de figuras………………………………………………………….……...........…7 Listado de símbolos……………………………………….……….…...……..................9 Introducción………………………………………………………………....…...........…15 Objetivos……………………………………………………..…...….........................…17 1. Marco teórico……………………………………….…….............................….…...18 1.1. Calidad del aire…………………………………………....................................…18 1.1.1. Material particulado…………………………………………....…..................…18 1.1.2. Sistema de Vigilancia de Calidad del Aire (SVCA Tipo III) …………...........…19 1.1.3. Resolución 2254 de 2017 …………………….................................................20 1.1.4. Índice de Calidad del Aire (ICA) …………………………….........................…21 1.1.4.1. Cálculo del ICA………………………………………………........……...........23 1.2. Completar datos faltantes de Material Particulado ……………………..........…23 1.2.1. Series Temporales……………………………………………………………..…23 1.2.2. NAR (Nonlinear autoregressive neural network) …………………………………...……………………………………………………...…25 1.2.3. NARX (Nonlinear autoregressive network with exogenous inputs) …………………………………………………………………………………………..…26 1.2.4. Nonlinear Input/Output …………………………………..………………………27 1.2.5. Trainlm………………………………………………………….………………….27 1.2.6. Trainbr…………………………………………………………………............….27 1.3. Procesamiento de Lenguaje Natural (NLP) ………………………….................28 1.3.1. Minería de texto: Extracción de Tweets ……………………............................29 1.3.2. Data Wrangling para Tweets …………………………....................................30 1.4. Técnicas de Inteligencia Artificial (Machine Learning) …………………….........31 1.4.1. Análisis Discriminante Lineal…………………………….................................32 1.5. Algoritmos de selección de características ………………….............................32 1.5.1. FSCNCA (Feature Selection Using Neighborhood Component Analysis)………………………………………...........................................................34 1.5.2. Forward Selection ………………………………………...................................36 2. Metodología ……………………………………………...........................................38 2.1. Etapa 1: Problema………………………………………......................................38 2.2. Etapa 2: Definir……………………………………...............................................38 2.2.1. Diseño de la investigación ………………......................................................38 2.2.2. Enfoque de la investigación ……………………….........................................39 2.2.3. Población ………………………………...........................................................41 2.2.4. Muestra y muestreo.......................................................................................41 2.2.5. Técnicas de recolección de datos ………………………................................41 2.2.6. Instrumento de recolección de datos……………………….............................41 2.2.7. Técnicas de procesamiento de datos………………………............................42 2.2.8. Herramientas para el procesamiento de datos………………………..............42 2.3. Etapa 3: Índice de Calidad del Aire (ICA) ……………………….........................42 2.3.1. Datos recogidos por los Sistemas de Vigilancia de Calidad del Aire…………42 2.3.1.1. Lagos 1 Floridablanca ……………………...................................................42 2.3.1.2. Estación Ciudadela …………………………................................................43 2.3.1.3. Estación Lagos del Cacique Bucaramanga …………………………...........44 2.3.1.4. Estación San Francisco Bucaramanga …………………….........................45 2.3.2. Data Wrangling para completar los datos de PM10 y PM2.5 ………………...47 2.3.2.1. Modelo seleccionado para completar los datos faltantes ….......................52 2.3.3. PM10 y PM2.5 diario en Bucaramanga ……………………............................53 2.3.4. Determinación del ICA según Resolución 2254 de 2017 …………….............54 2.4. Etapa 4: Publicaciones en Twitter ……………………………….........................56 2.4.1. API Twitter ………………………………………………...................................56 2.4.2. Octoparse…………………………………………………………….......…….....56 2.4.3. Twint………………………………………………………………………….…....57 2.4.4. Limpieza de Tweets ………..........................................................................58 2.4.5. Conteo del número de palabras (variables) en cada Tweet …………..........60 2.5. Etapa 5: Eliminación de palabras que provocan ruido en el clasificador ….....62 2.5.1. FSCNCA ……………………………………………..........................................62 2.5.1.1. FSCNCA + Análisis Discriminante ……………………................................63 2.5.1.2. FSCNCA + Redes Neuronales ………………….........................................65 2.5.2. Forward Selection ……………………………………………………….............66 2.5.2.1. Forward Selection + Análisis Discriminante ……………………………........66 2.5.2.2. Forward Selection + Redes Neuronales …………………....……................71 2.6. Etapa 6: Modelo de Clasificación ………………………………..........................73 2.6.1. Algoritmos obtenidos e implementados ………………………........................74 3. Conclusiones………………………………………………………………................75 Referencias ………………………………………………………................................76spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.titleAnálisis de correlación entre el índice de calidad del aire y el impacto en Twitter para la ciudad de Bucaramanga aplicando análisis de series temporales, extracción y procesamiento de lenguaje naturalspa
dc.title.translatedCorrelation analysis between the air quality index and the impact on Twitter for the city of Bucaramanga applying time series analysis, extraction and natural language processingspa
dc.degree.nameIngeniero Mecatrónicospa
dc.publisher.grantorUniversidad Autónoma de Bucaramanga UNABspa
dc.rights.localAbierto (Texto Completo)spa
dc.publisher.facultyFacultad Ingenieríaspa
dc.publisher.programPregrado Ingeniería Mecatrónicaspa
dc.description.degreelevelPregradospa
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.localTrabajo de Gradospa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.subject.keywordsMechatronicspa
dc.subject.keywordsCerebrovascular diseasespa
dc.subject.keywordsAir quality indexspa
dc.subject.keywordsTemporal seriesspa
dc.subject.keywordsNatural languagespa
dc.subject.keywordsAir pollutionspa
dc.subject.keywordsAlgorithmspa
dc.subject.keywordsNeural networksspa
dc.subject.keywordsArtificial intelligencespa
dc.subject.keywordsMachine learningspa
dc.identifier.instnameinstname:Universidad Autónoma de Bucaramanga - UNABspa
dc.identifier.reponamereponame:Repositorio Institucional UNABspa
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersion
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.relation.referencesFANG, Guor-Cheng et al., “Characterization of particulate, metallic elements of TSP, PM2.5 and PM2.5-10 aerosols at a farm sampling site in Taiwan, Taichung,” Sci. Total Environ., Jun. 2003, vol. 308, no. 1–3, pp. 157–166, doi: 10.1016/S0048-9697(02)00648-4spa
dc.relation.referencesBILLET. Sylvain et al., “Ambient particulate matter (PM2.5): physicochemical characterization and metabolic activation of the organic fraction in human lung epithelial cells (A549),” Environ. Res., Oct. 2007, vol. 105, no. 2, pp. 212–223, doi: 10.1016/J.ENVRES.2007.03.001.spa
dc.relation.referencesARCINIÉGAS, Cesar S., “Diagnóstico y control de material particulado: partículas suspendidas totales y fracción respirable PM10,” 2012, doi: 10.17151/luaz.2012.34.12spa
dc.relation.references“Contaminantes del aire: Materias particuladas.” http://www.murciasalud.es/pagina.php?id=244308&# (accessed Oct. 04, 2021).spa
dc.relation.references“Monitoreo aire - IDEAM.” http://www.siac.gov.co/monitoreoaire (accessed Oct. 04, 2021).spa
dc.relation.references“Informe Carga de Enfermedad Ambiental en Colombia.” https://www.ins.gov.co/Noticias/Paginas/Informe-Carga-de-EnfermedadAmbiental-en-Colombia.aspx (accessed Oct. 04, 2021).spa
dc.relation.referencesM. y E. A. IDEAM, Instituto de hidrología, “Índice de calidad del aire (ICA),” no. 571, p. 2013, 2012, [Online]. Available: http://www.ideam.gov.co/documents/11769/641368/2.01+HM+Indice+calidad +aire.pdf/5130ffb3-a1bf-4d23-a663-b4c51327cc05spa
dc.relation.references“Series Temporales: Introducción,” Accessed: Oct. 04, 2021. [Online]. Available: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/EDescrip/tema7. pdfspa
dc.relation.references“How Dynamic Neural Networks Work - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ug/how-dynamic-neuralnetworks-work.html (accessed Oct. 05, 2021).spa
dc.relation.references“Choose a Multilayer Neural Network Training Function - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ug/choose-a-multilayer-neuralnetwork-training-function.html (accessed Oct. 05, 2021).spa
dc.relation.referencesBENRHMACH, G., NAMIR, K., NAMIR, A. and BOUYAGHROUMNI, J., “Nonlinear Autoregressive Neural Network and Extended Kalman Filters for Prediction of Financial Time Series,” J. Appl. Math., 2020, vol. 2020, doi: 10.1155/2020/5057801spa
dc.relation.references“Design Time Series NARX Feedback Neural Networks - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ug/design-time-series-narxfeedback-neural-networks.html (accessed Oct. 05, 2021).spa
dc.relation.references“Levenberg-Marquardt backpropagation - MATLAB trainlm - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ref/trainlm.html (accessed Oct. 05, 2021).spa
dc.relation.references“Bayesian regularization backpropagation - MATLAB trainbr - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ref/trainbr.html?s_tid=doc_ta (accessed Oct. 05, 2021).spa
dc.relation.references“Scaled conjugate gradient backpropagation - MATLAB trainscg - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ref/trainscg.html?searchHighlight =trainscg&s_tid=srchtitle (accessed Oct. 05, 2021).spa
dc.relation.references“What is Natural Language Processing? | IBM.” https://www.ibm.com/cloud/learn/natural-language-processing#toc-what-isna-jLju4DjE (accessed Oct. 05, 2021).spa
dc.relation.references“Procesamiento del lenguaje natural con NLTK para Ingeniería social automatizada – Seguridad en Sistemas y Técnicas de Hacking. TheHackerWay (THW).” https://thehackerway.com/2015/02/17/procesamiento-del-lenguaje-naturalcon-nltk-para-ingenieria-social-automatizada/ (accessed Oct. 05, 2021).spa
dc.relation.references“Análisis discriminante lineal (LDA) y análisis discriminante cuadrático (QDA).” https://www.cienciadedatos.net/documentos/28_linear_discriminant_analysis _lda_y_quadratic_discriminant_analysis_qda (accessed Oct. 05, 2021).spa
dc.relation.references“Introduction to Feature Selection - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/stats/feature-selection.html (accessed Oct. 06, 2021).spa
dc.relation.referencesYANG, W., WANG, K., and ZUO, W. “Neighborhood component feature selection for high-dimensional data,” J. Comput., 2012, vol. 7, no. 1, pp. 162–168, doi: 10.4304/JCP.7.1.161-168.spa
dc.relation.references“Neighborhood Component Analysis (NCA) Feature Selection - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/stats/neighborhood-component-analysis.html (accessed Oct. 06, 2021).spa
dc.relation.referencesMARCANO, A. C., QUINTANILLA, J. D., CORTINA M. G. J., and ANDINA, D. “Feature selection using Sequential Forward Selection and classification 79 applying Artificial Metaplasticity Neural Network,” IECON Proc. 2010 (Industrial Electron. Conf., pp. 2845–2850, doi: 10.1109/IECON.2010.5675075spa
dc.relation.referencesCHANDRA, B. “Gene Selection Methods for Microarray Data,” Appl. Comput. Med. Heal., Jan. 2016 pp. 45–78, doi: 10.1016/B978-0-12-803468-2.00003-5.spa
dc.contributor.cvlacArizmendi Pereira, Carlos Julio [0001381550]spa
dc.contributor.googlescholarArizmendi Pereira, Carlos Julio [es&oi=ao]spa
dc.contributor.orcidArizmendi Pereira, Carlos Julio [0000-0002-5850-0775]spa
dc.contributor.researchgateArizmendi Pereira, Carlos Julio [Carlos-Arizmendi]spa
dc.subject.lembMecatrónicaspa
dc.subject.lembContaminación del airespa
dc.subject.lembAlgoritmospa
dc.subject.lembRedes neuronalesspa
dc.subject.lembInteligencia artificialspa
dc.subject.lembAprendizaje automáticospa
dc.identifier.repourlrepourl:https://repository.unab.edu.cospa
dc.description.abstractenglishA series of models that predict the Air Quality Index (AQI) from Twitter posts made by Bucaramanga residents were applied to determine air quality in the city. The best model was selected different metrics based (accuracy of the classification). For this purpose, real AQI measurements were collected at several points in the city and Tweets were extracted for the same time series. By employing different dimensionality reduction algorithms along with classification techniques, as FSCNCA, Forward Selection, LDA and Neural Networks, the prediction models were developed and the one with the highest classification percentage was selected. The model using FSCNCA as dimensionality reduction technique and LDA as classifier was the one that obtained the best classification percentage, with an Accuracy of 69.07% in the Validation set.spa
dc.subject.proposalEnfermedad cerebrovascularspa
dc.subject.proposalÍndice calidad de airespa
dc.subject.proposalSeries temporalesspa
dc.subject.proposalLenguaje naturalspa
dc.subject.proposalTwitterspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TP
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 2.5 Colombia*
dc.coverage.campusUNAB Campus Bucaramangaspa
dc.description.learningmodalityModalidad Presencialspa


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Atribución-NoComercial-SinDerivadas 2.5 Colombia
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 2.5 Colombia