Show simple item record

dc.contributor.advisorHernández Cáceres, Javierspa
dc.contributor.authorContreras Peinado, Rafael Alfonsospa
dc.contributor.authorFarfán Martínez, Ricardo Joséspa
dc.date.accessioned2020-06-26T17:56:25Z
dc.date.available2020-06-26T17:56:25Z
dc.date.issued2005
dc.identifier.urihttp://hdl.handle.net/20.500.12749/1326
dc.description.abstractHa existido un gran interés comercial por explotar los grandes volúmenes de información almacenada. Se cree que se está perdiendo una gran cantidad de información y conocimiento valioso que se podría extraer de los datos. Este es el caso de la industria petrolera, donde es almacenada una cantidad abundante de datos, donde solo una parte de estos son analizados (manualmente en su mayoría), debido a la falta de técnicas computarizadas aptas para estos análisis. Con la aplicación de técnicas de minería de datos en la planta DEMEX del ICP, se puede obtener un conocimiento valioso a partir de los patrones que puedan ser extraídos de los datos arrojados por esta planta. Por estas razones surge la aplicación de la minería de datos en la predicción de propiedades de hidrocarburos, ya que se cuenta con una buena cantidad de datos. Las soluciones que hemos estado trabajando, además de las técnicas de minería de datos (clustering, árboles de decisión y redes bayesianas), incluyen la aplicación de técnicas estadísticas (análisis de regresión y componentes principales) y la construcción de un prototipo que agilice el trabajo de los análisis de las técnicas sobre grandes volúmenes de datos, para con esto obtener resultados rápidos y confiables. En este proyecto influye la Ingeniería de Sistemas, ya que se aplican conocimientos referentes a la programación, como es la construcción del prototipo bajo la plataforma JAVA, el manejo del SILAB basado en ORACLE, y la Ingeniería del Software en la metodología del proyecto. Además del manejo de la gran cantidad de fórmulas matemáticas y estadísticas que actualmente nos encontramos aplicando.spa
dc.description.tableofcontentsINTRODUCCIÓN 1. DESCUBRIMIENTO DE CONOCIMIENTO EN BASE DE DATOS (KDD) 12 2. MINERÍA DE DATOS 15 2.1 TIPOS DE APRENDIZAJE 15 2.1.1 Aprendizaje por Memorización 16 2.1.2 Aprendizaje por Instrucción 16 2.1.3 Aprendizaje por Deducción o Aprendizaje Guiado por la Especificación 16 2.1.4 Aprendizaje por Analogía 16 2.1.5 Aprendizaje por Inducción 17 2.1.6 Aprendizaje por Ejemplos 17 2.1.7 Aprendizaje por Observación y Descubrimiento 17 2.2 TAREAS DE UN SISTEMA DE MINERÍA DE DATOS 18 2.2.1 Descripción de clases 18 2.2.2 Asociación 18 2.2.3 Clasificación 18 2.2.4 Predicción 18 2.2.5 Clustering 19 2.2.6 Análisis de series a través del tiempo 19 2.3 TIPOS DE APRENDIZAJE 19 2.3.1 Aprendizaje activo/Diseño Experimental 19 2.3.2 Aprendizaje acumulativo 20 2.3.3 Aprendizaje multitarea 20 2.3.4 Aprendizaje a partir de datos tabulados y no tabulados 20 2.3.5 Aprendizaje relacional 21 2.3.6 Aprendiendo a partir de bases de datos de gran tamaño 21 2.3.7 Aprendiendo a partir de bases de datos extremadamente pequeñas 21 2.3.8 Aprendiendo con conocimientos previos 21 2.3.9 Aprendiendo a partir de datos de distintos tipos 22 2.3.10 Aprendiendo Relaciones Casuales 22 2.3.11 Visualización y Minería de Datos interactiva 22 2.4 COMPONENTES DE LA MINERÍA DE DATOS 22 2.4.1 Algoritmos de Clasificación 23 2.4.2 Algoritmos de Reglas de Asociación 25 2.4.3 Análisis de Secuencias 25 3. TÉCNICAS ESTADÍSTICAS Y DE MINERÍA DE DATOS UTILIZADAS 27 3.1 ANÁLISIS DE CORRELACIÓN 27 3.2 ANÁLISIS DE REGRESIÓN LINEAL 27 3.2.1 Eliminación Hacia Atrás 30 3.2.2 Estimación Paso a Paso 30 3.3 TABLA DE ANOVA 31.4 ANÁLISIS FACTORIAL 33 3.5 COMPONENTES PRINCIPALES 34 3.5.1 Semejanza entre los individuos de la Tabla de Datos 35 3.5.2 Relación entre las variables de la Tabla de Datos 35 3.6 ÁRBOLES DE DECISIÓN 36 3.7 CLUSTERING 37 3.8 REDES BAYESIANAS 40 3.8.1 Aprendizaje estructural 42 3.8.2 Aprendizaje paramétrico 42 4. HERRAMIENTAS DE MINERÍA DE DATOS Y ESTADÍSTICA UTILIZADOS 43 4.1 WEKA 43 4.2 SPSS 44 5. CONCLUSIONES 47 BIBLIOGRAFÍA 48 ANEXOS 51spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/2.5/co/*
dc.titleAplicación de minería de datos en la predicción de propiedades de hidrocarburos e implementación de un prototipospa
dc.title.translatedData mining application in the prediction of hydrocarbon properties and implementation of a prototypeeng
dc.degree.nameIngeniero de Sistemasspa
dc.coverageBucaramanga (Colombia)spa
dc.publisher.grantorUniversidad Autónoma de Bucaramanga UNABspa
dc.rights.localAbierto (Texto Completo)spa
dc.publisher.facultyFacultad Ingenieríaspa
dc.publisher.programPregrado Ingeniería de Sistemasspa
dc.description.degreelevelPregradospa
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.localTrabajo de Gradospa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1f
dc.subject.keywordsHydrocarbonseng
dc.subject.keywordsData miningeng
dc.subject.keywordsSystems engineeringeng
dc.subject.keywordsResearcheng
dc.subject.keywordsICP (Colombian Petroleum Institute)eng
dc.subject.keywordsDEMEX Plant (Deasphalting Process)eng
dc.subject.keywordsSILAB (System for the management of laboratory data)eng
dc.subject.keywordsMultivariate statisticseng
dc.identifier.instnameinstname:Universidad Autónoma de Bucaramanga - UNABspa
dc.identifier.reponamereponame:Repositorio Institucional UNABspa
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersion
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.accessrightshttp://purl.org/coar/access_right/c_abf2spa
dc.relation.referencesContreras Peinado, Rafael Alfonso, Farfán Martínez, Ricardo José, Hernández Cáceres, Javier (2005). Aplicación de minería de datos en la predicción de propiedades de hidrocarburos e implementación de un prototipo. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNABspa
dc.relation.references[1] DEBUSE, J.C.W., DE LA IGLESIA, B., C.M., Howard, Rayward-Smith, V.J.. A methodology for Knowledge Discovery: The KDD Roadmap. [en línea]. Estados Unidos: University of East Anglia. http://www.witnessminer.com/kddmethodology.html (Consulta: 18 de abril, 2005)spa
dc.relation.references[2] GARCÍA, R. Sistemas Autónomos: Aprendizaje Automático. Buenos Aires, Argentina: Nueva Librería. 1997.spa
dc.relation.references[3] THRUN, S., FALOUSTOS, C., MITCHELL, T., WASSERMAN, L. Automated Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field. Pittisburgh, EE.UU: Center for Automated Learning and Discovery, Carnegie Mellon University. 1998. p. 98-100.spa
dc.relation.references[4] GÓMEZ, Antonio J. Minería de Datos. Madrid, España, 1998. p. 33-35.spa
dc.relation.references[5] JOSHI, K.P. Analysis of Data Mining Algorithms. [en línea]. Maryland, Estados Unidos: UMBC. http://userpages.umbc.edu/~kjoshi1/data-mine/proj_rpt.htm (Consulta: 19 de septiembre, 2005)spa
dc.relation.references[6] GRAJALES, Tevni. Correlación y regresión lineal múltiple. p. 1-3, [en línea]. Monterelos, México: Tevni Grajales, 2002. http://tgrajales.net/corregmul.pdf. (Consulta: 4 de marzo, 2005)spa
dc.relation.references[7] VILLAGARCÍA, Teresa. Regresión. p. 5 [en línea]. Madrid, España: Universidad Carlos III de Madrid, 2004. halweb.uc3m.es/esp/docencia/ Est2Leg/Apuntes%20Regresion.pdf (Consulta: 2 de marzo, 2005).spa
dc.relation.references[8] ALDÁS, Joaquín. El Análisis Multivariable: Conceptos Básicos. p. 19-20 [en línea]. Valencia, España: Universidad de Valencia, 2004. http://www.uv.es/~aldas/doctorado_1.html (Consulta: 2 de marzo, 2005).spa
dc.relation.references[9] OTERO, José; SÁNCHEZ, Ainhoa; MORAL, Eva. Análisis de la Varianza (ANOVA). p. 8-9, 14 [en línea]. Madrid, España: Universidad Autónoma de Madrid, 2005. http://www.uam.es/departamentos/economicas/econapli/anova.pdf (Consulta: 6 de marzo, 2005).spa
dc.relation.references[10] DONAIRE, Jose. Introducció a l'anàlisi factorial. [en línea]. Girona: Universidad de Girona. 2004. http://www.udg.es/dghha/cat/secciogeografia/prac/models/factorial(1).htm (Consulta: 4 de marzo de 2005)spa
dc.relation.references[11] HERVÁS-MARTÍNEZ, César; ROMERO, Cristóbal; VENTURA, Sebastián. Selección de medidas de evaluación de reglas obtenidas mediante programación genética basada en gramática, p. 9 [en línea]. Cordoba, España: Universidad de Córdoba, 2002. http://www.lsi.us.es/redmidas/Capitulos/LMD23.pdf (Consulta: 4 de marzo, 2005)spa
dc.relation.references[12] Universidad Católica De La Santísima Concepción - Facultad De Ingeniería. Análisis De Componentes Principales. p. 2-3 [en línea]. España: Universidad Católica De La Santísima Concepción. http://pdf.rincondelvago.com/analisis-de-componentes-principales.html (Consulta: 4 de marzo, 2005)spa
dc.relation.references[13] GARCÍA, Juan C. Minería de Datos. Bucaramanga, Colombia, 2002. p. 19-26.spa
dc.relation.references[14] MORALES, Eduardo. Descubrimiento de conocimiento en bases de datos. Clustering. [en línea]. México: Tecnológico de Monterrey, 2002. http://w3.mor.itesm.mx/~emorales/Cursos/KDD01/node36.html (Consulta: 4 de marzo, 2005)spa
dc.relation.references[15] MORALES, Eduardo. Descubrimiento de conocimiento en bases de datos. Redes bayesianas en minería de datos. [en línea]. México: Tecnológico de Monterrey, 2002. http://w3.mor.itesm.mx/~emorales/Cursos/KDD01/node35.html (Consulta: 4 de marzo, 2005)spa
dc.relation.references[16] Universidad de Waikato. WEKA 3.4. [en línea]. Nueva Zelanda: Universidad de Waikato. http://www.cs.waikato.ac.nz/~ml/weka/index.html (Consulta: 12 de marzo, 2005)spa
dc.relation.references[17] Statistical Package For The Social Sciences. SPSS 12.0. [en línea]. Chicago: Statistical Package For The Social Sciences. http://www.spss.com/downloads/Papers.cfm?ProductID=00035&Name=SPSS_Base&DLType=Demo (Consulta: 15 de marzo, 2005)spa
dc.relation.references[18] HAIR, Joseph; ANDERSON, Rolph; TATHAM, Ronald; BLACK, William. Análisis Multivariante. 5ta edición. Madrid, España, 2001. Prentice Hall. p. 100.spa
dc.relation.references[18] HAIR, Joseph; ANDERSON, Rolph; TATHAM, Ronald; BLACK, William. Análisis Multivariante. 5ta edición. Madrid, España, 2001. Prentice Hall. p. 100.spa
dc.contributor.cvlacHernández Cáceres, Javier [0000817864]*
dc.subject.lembHidrocarburosspa
dc.subject.lembMinería de datosspa
dc.subject.lembIngeniería de sistemasspa
dc.subject.lembInvestigacionesspa
dc.description.abstractenglishThere has been great commercial interest in exploiting the large volumes of stored information. It is believed that a great deal of valuable information and knowledge that could be extracted from the data is being lost. This is the case of the oil industry, where an abundant amount of data is stored, where only a part of it is analyzed (mostly manually), due to the lack of computerized techniques suitable for these analyzes. With the application of data mining techniques in the ICP DEMEX plant, valuable knowledge can be obtained from the patterns that can be extracted from the data produced by this plant. For these reasons, the application of data mining arises in the prediction of hydrocarbon properties, since there is a good amount of data. The solutions we have been working on, in addition to data mining techniques (clustering, decision trees and Bayesian networks), include the application of statistical techniques (regression analysis and principal components) and the construction of a prototype that speeds up the work. of the analysis of the techniques on large volumes of data, in order to obtain fast and reliable results. Systems Engineering influences this project, since knowledge related to programming is applied, such as the construction of the prototype under the JAVA platform, the management of the SILAB based on ORACLE, and Software Engineering in the project methodology. In addition to managing the large number of mathematical and statistical formulas that we are currently applying.eng
dc.subject.proposalICP (Instituto Colombiano del Petróleo)
dc.subject.proposalPlanta DEMEX (Proceso de desasfaltado)
dc.subject.proposalSILAB (Sistema para el manejo de datos de laboratorio)
dc.subject.proposalEstadística multivariada
dc.type.redcolhttp://purl.org/redcol/resource_type/TP
dc.rights.creativecommonsAtribución-NoComercial-SinDerivadas 2.5 Colombia*


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial-SinDerivadas 2.5 Colombia
Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 2.5 Colombia