Mostrar el registro sencillo del ítem
Análisis de correlación entre el índice de calidad del aire y el impacto en Twitter para la ciudad de Bucaramanga aplicando análisis de series temporales, extracción y procesamiento de lenguaje natural
dc.contributor.advisor | Arizmendi Pereira, Carlos Julio | |
dc.contributor.author | Naranjo Reyes, Kevin Alejandro | |
dc.coverage.spatial | Bucaramanga (Santander, Colombia) | spa |
dc.date.accessioned | 2022-01-25T12:10:32Z | |
dc.date.available | 2022-01-25T12:10:32Z | |
dc.date.issued | 2021 | |
dc.identifier.uri | http://hdl.handle.net/20.500.12749/15350 | |
dc.description.abstract | Se aplicó una serie de modelos que predicen el Índice de Calidad del Aire (ICA) a partir de las publicaciones realizadas por los habitantes de Bucaramanga en Twitter, para determinar la calidad del aire en la ciudad. Se seleccionó el mejor modelo a partir de diferentes métricas con base en el accuracy de la clasificación. Para ello, se recopilaron mediciones reales del ICA en varios puntos de la ciudad y se hizo la extracción de Tweets para la misma serie temporal. Al emplear distintos algoritmos de reducción de dimensionalidad junto con técnicas de clasificación, tales técnicas son FSCNCA, Forward Selection, LDA y Redes Neuronales, se desarrollaron los modelos de predicción y se seleccionó el de mayor porcentaje de clasificación. El modelo que emplea FSCNCA como técnica de reducción de dimensionalidad y LDA como clasificador fue el que obtuvo el mejor porcentaje de clasificación, con un Accuracy de 69.07% en el conjunto Validation. | spa |
dc.description.tableofcontents | Resumen…………………………………………………………………..….....….......…3 Listado de tablas………………………………………………….……...……….........…4 Listado de figuras………………………………………………………….……...........…7 Listado de símbolos……………………………………….……….…...……..................9 Introducción………………………………………………………………....…...........…15 Objetivos……………………………………………………..…...….........................…17 1. Marco teórico……………………………………….…….............................….…...18 1.1. Calidad del aire…………………………………………....................................…18 1.1.1. Material particulado…………………………………………....…..................…18 1.1.2. Sistema de Vigilancia de Calidad del Aire (SVCA Tipo III) …………...........…19 1.1.3. Resolución 2254 de 2017 …………………….................................................20 1.1.4. Índice de Calidad del Aire (ICA) …………………………….........................…21 1.1.4.1. Cálculo del ICA………………………………………………........……...........23 1.2. Completar datos faltantes de Material Particulado ……………………..........…23 1.2.1. Series Temporales……………………………………………………………..…23 1.2.2. NAR (Nonlinear autoregressive neural network) …………………………………...……………………………………………………...…25 1.2.3. NARX (Nonlinear autoregressive network with exogenous inputs) …………………………………………………………………………………………..…26 1.2.4. Nonlinear Input/Output …………………………………..………………………27 1.2.5. Trainlm………………………………………………………….………………….27 1.2.6. Trainbr…………………………………………………………………............….27 1.3. Procesamiento de Lenguaje Natural (NLP) ………………………….................28 1.3.1. Minería de texto: Extracción de Tweets ……………………............................29 1.3.2. Data Wrangling para Tweets …………………………....................................30 1.4. Técnicas de Inteligencia Artificial (Machine Learning) …………………….........31 1.4.1. Análisis Discriminante Lineal…………………………….................................32 1.5. Algoritmos de selección de características ………………….............................32 1.5.1. FSCNCA (Feature Selection Using Neighborhood Component Analysis)………………………………………...........................................................34 1.5.2. Forward Selection ………………………………………...................................36 2. Metodología ……………………………………………...........................................38 2.1. Etapa 1: Problema………………………………………......................................38 2.2. Etapa 2: Definir……………………………………...............................................38 2.2.1. Diseño de la investigación ………………......................................................38 2.2.2. Enfoque de la investigación ……………………….........................................39 2.2.3. Población ………………………………...........................................................41 2.2.4. Muestra y muestreo.......................................................................................41 2.2.5. Técnicas de recolección de datos ………………………................................41 2.2.6. Instrumento de recolección de datos……………………….............................41 2.2.7. Técnicas de procesamiento de datos………………………............................42 2.2.8. Herramientas para el procesamiento de datos………………………..............42 2.3. Etapa 3: Índice de Calidad del Aire (ICA) ……………………….........................42 2.3.1. Datos recogidos por los Sistemas de Vigilancia de Calidad del Aire…………42 2.3.1.1. Lagos 1 Floridablanca ……………………...................................................42 2.3.1.2. Estación Ciudadela …………………………................................................43 2.3.1.3. Estación Lagos del Cacique Bucaramanga …………………………...........44 2.3.1.4. Estación San Francisco Bucaramanga …………………….........................45 2.3.2. Data Wrangling para completar los datos de PM10 y PM2.5 ………………...47 2.3.2.1. Modelo seleccionado para completar los datos faltantes ….......................52 2.3.3. PM10 y PM2.5 diario en Bucaramanga ……………………............................53 2.3.4. Determinación del ICA según Resolución 2254 de 2017 …………….............54 2.4. Etapa 4: Publicaciones en Twitter ……………………………….........................56 2.4.1. API Twitter ………………………………………………...................................56 2.4.2. Octoparse…………………………………………………………….......…….....56 2.4.3. Twint………………………………………………………………………….…....57 2.4.4. Limpieza de Tweets ………..........................................................................58 2.4.5. Conteo del número de palabras (variables) en cada Tweet …………..........60 2.5. Etapa 5: Eliminación de palabras que provocan ruido en el clasificador ….....62 2.5.1. FSCNCA ……………………………………………..........................................62 2.5.1.1. FSCNCA + Análisis Discriminante ……………………................................63 2.5.1.2. FSCNCA + Redes Neuronales ………………….........................................65 2.5.2. Forward Selection ……………………………………………………….............66 2.5.2.1. Forward Selection + Análisis Discriminante ……………………………........66 2.5.2.2. Forward Selection + Redes Neuronales …………………....……................71 2.6. Etapa 6: Modelo de Clasificación ………………………………..........................73 2.6.1. Algoritmos obtenidos e implementados ………………………........................74 3. Conclusiones………………………………………………………………................75 Referencias ………………………………………………………................................76 | spa |
dc.format.mimetype | application/pdf | spa |
dc.language.iso | spa | spa |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/co/ | * |
dc.title | Análisis de correlación entre el índice de calidad del aire y el impacto en Twitter para la ciudad de Bucaramanga aplicando análisis de series temporales, extracción y procesamiento de lenguaje natural | spa |
dc.title.translated | Correlation analysis between the air quality index and the impact on Twitter for the city of Bucaramanga applying time series analysis, extraction and natural language processing | spa |
dc.degree.name | Ingeniero Mecatrónico | spa |
dc.publisher.grantor | Universidad Autónoma de Bucaramanga UNAB | spa |
dc.rights.local | Abierto (Texto Completo) | spa |
dc.publisher.faculty | Facultad Ingeniería | spa |
dc.publisher.program | Pregrado Ingeniería Mecatrónica | spa |
dc.description.degreelevel | Pregrado | spa |
dc.type.driver | info:eu-repo/semantics/bachelorThesis | |
dc.type.local | Trabajo de Grado | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_7a1f | |
dc.subject.keywords | Mechatronic | spa |
dc.subject.keywords | Cerebrovascular disease | spa |
dc.subject.keywords | Air quality index | spa |
dc.subject.keywords | Temporal series | spa |
dc.subject.keywords | Natural language | spa |
dc.subject.keywords | Air pollution | spa |
dc.subject.keywords | Algorithm | spa |
dc.subject.keywords | Neural networks | spa |
dc.subject.keywords | Artificial intelligence | spa |
dc.subject.keywords | Machine learning | spa |
dc.identifier.instname | instname:Universidad Autónoma de Bucaramanga - UNAB | spa |
dc.identifier.reponame | reponame:Repositorio Institucional UNAB | spa |
dc.type.hasversion | info:eu-repo/semantics/acceptedVersion | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.relation.references | FANG, Guor-Cheng et al., “Characterization of particulate, metallic elements of TSP, PM2.5 and PM2.5-10 aerosols at a farm sampling site in Taiwan, Taichung,” Sci. Total Environ., Jun. 2003, vol. 308, no. 1–3, pp. 157–166, doi: 10.1016/S0048-9697(02)00648-4 | spa |
dc.relation.references | BILLET. Sylvain et al., “Ambient particulate matter (PM2.5): physicochemical characterization and metabolic activation of the organic fraction in human lung epithelial cells (A549),” Environ. Res., Oct. 2007, vol. 105, no. 2, pp. 212–223, doi: 10.1016/J.ENVRES.2007.03.001. | spa |
dc.relation.references | ARCINIÉGAS, Cesar S., “Diagnóstico y control de material particulado: partículas suspendidas totales y fracción respirable PM10,” 2012, doi: 10.17151/luaz.2012.34.12 | spa |
dc.relation.references | “Contaminantes del aire: Materias particuladas.” http://www.murciasalud.es/pagina.php?id=244308&# (accessed Oct. 04, 2021). | spa |
dc.relation.references | “Monitoreo aire - IDEAM.” http://www.siac.gov.co/monitoreoaire (accessed Oct. 04, 2021). | spa |
dc.relation.references | “Informe Carga de Enfermedad Ambiental en Colombia.” https://www.ins.gov.co/Noticias/Paginas/Informe-Carga-de-EnfermedadAmbiental-en-Colombia.aspx (accessed Oct. 04, 2021). | spa |
dc.relation.references | M. y E. A. IDEAM, Instituto de hidrología, “Índice de calidad del aire (ICA),” no. 571, p. 2013, 2012, [Online]. Available: http://www.ideam.gov.co/documents/11769/641368/2.01+HM+Indice+calidad +aire.pdf/5130ffb3-a1bf-4d23-a663-b4c51327cc05 | spa |
dc.relation.references | “Series Temporales: Introducción,” Accessed: Oct. 04, 2021. [Online]. Available: http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/EDescrip/tema7. pdf | spa |
dc.relation.references | “How Dynamic Neural Networks Work - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ug/how-dynamic-neuralnetworks-work.html (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Choose a Multilayer Neural Network Training Function - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ug/choose-a-multilayer-neuralnetwork-training-function.html (accessed Oct. 05, 2021). | spa |
dc.relation.references | BENRHMACH, G., NAMIR, K., NAMIR, A. and BOUYAGHROUMNI, J., “Nonlinear Autoregressive Neural Network and Extended Kalman Filters for Prediction of Financial Time Series,” J. Appl. Math., 2020, vol. 2020, doi: 10.1155/2020/5057801 | spa |
dc.relation.references | “Design Time Series NARX Feedback Neural Networks - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ug/design-time-series-narxfeedback-neural-networks.html (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Levenberg-Marquardt backpropagation - MATLAB trainlm - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ref/trainlm.html (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Bayesian regularization backpropagation - MATLAB trainbr - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ref/trainbr.html?s_tid=doc_ta (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Scaled conjugate gradient backpropagation - MATLAB trainscg - MathWorks América Latina.” https://la.mathworks.com/help/deeplearning/ref/trainscg.html?searchHighlight =trainscg&s_tid=srchtitle (accessed Oct. 05, 2021). | spa |
dc.relation.references | “What is Natural Language Processing? | IBM.” https://www.ibm.com/cloud/learn/natural-language-processing#toc-what-isna-jLju4DjE (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Procesamiento del lenguaje natural con NLTK para Ingeniería social automatizada – Seguridad en Sistemas y Técnicas de Hacking. TheHackerWay (THW).” https://thehackerway.com/2015/02/17/procesamiento-del-lenguaje-naturalcon-nltk-para-ingenieria-social-automatizada/ (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Análisis discriminante lineal (LDA) y análisis discriminante cuadrático (QDA).” https://www.cienciadedatos.net/documentos/28_linear_discriminant_analysis _lda_y_quadratic_discriminant_analysis_qda (accessed Oct. 05, 2021). | spa |
dc.relation.references | “Introduction to Feature Selection - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/stats/feature-selection.html (accessed Oct. 06, 2021). | spa |
dc.relation.references | YANG, W., WANG, K., and ZUO, W. “Neighborhood component feature selection for high-dimensional data,” J. Comput., 2012, vol. 7, no. 1, pp. 162–168, doi: 10.4304/JCP.7.1.161-168. | spa |
dc.relation.references | “Neighborhood Component Analysis (NCA) Feature Selection - MATLAB & Simulink - MathWorks América Latina.” https://la.mathworks.com/help/stats/neighborhood-component-analysis.html (accessed Oct. 06, 2021). | spa |
dc.relation.references | MARCANO, A. C., QUINTANILLA, J. D., CORTINA M. G. J., and ANDINA, D. “Feature selection using Sequential Forward Selection and classification 79 applying Artificial Metaplasticity Neural Network,” IECON Proc. 2010 (Industrial Electron. Conf., pp. 2845–2850, doi: 10.1109/IECON.2010.5675075 | spa |
dc.relation.references | CHANDRA, B. “Gene Selection Methods for Microarray Data,” Appl. Comput. Med. Heal., Jan. 2016 pp. 45–78, doi: 10.1016/B978-0-12-803468-2.00003-5. | spa |
dc.contributor.cvlac | Arizmendi Pereira, Carlos Julio [0001381550] | spa |
dc.contributor.googlescholar | Arizmendi Pereira, Carlos Julio [es&oi=ao] | spa |
dc.contributor.orcid | Arizmendi Pereira, Carlos Julio [0000-0002-5850-0775] | spa |
dc.contributor.researchgate | Arizmendi Pereira, Carlos Julio [Carlos-Arizmendi] | spa |
dc.subject.lemb | Mecatrónica | spa |
dc.subject.lemb | Contaminación del aire | spa |
dc.subject.lemb | Algoritmo | spa |
dc.subject.lemb | Redes neuronales | spa |
dc.subject.lemb | Inteligencia artificial | spa |
dc.subject.lemb | Aprendizaje automático | spa |
dc.identifier.repourl | repourl:https://repository.unab.edu.co | spa |
dc.description.abstractenglish | A series of models that predict the Air Quality Index (AQI) from Twitter posts made by Bucaramanga residents were applied to determine air quality in the city. The best model was selected different metrics based (accuracy of the classification). For this purpose, real AQI measurements were collected at several points in the city and Tweets were extracted for the same time series. By employing different dimensionality reduction algorithms along with classification techniques, as FSCNCA, Forward Selection, LDA and Neural Networks, the prediction models were developed and the one with the highest classification percentage was selected. The model using FSCNCA as dimensionality reduction technique and LDA as classifier was the one that obtained the best classification percentage, with an Accuracy of 69.07% in the Validation set. | spa |
dc.subject.proposal | Enfermedad cerebrovascular | spa |
dc.subject.proposal | Índice calidad de aire | spa |
dc.subject.proposal | Series temporales | spa |
dc.subject.proposal | Lenguaje natural | spa |
dc.subject.proposal | spa | |
dc.type.redcol | http://purl.org/redcol/resource_type/TP | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 2.5 Colombia | * |
dc.coverage.campus | UNAB Campus Bucaramanga | spa |
dc.description.learningmodality | Modalidad Presencial | spa |
Ficheros en el ítem
Este ítem aparece en la(s) siguiente(s) colección(ones)
-
Ingeniería Mecatrónica [292]