Aplicación de minería de datos en la predicción de propiedades de hidrocarburos e implementación de un prototipo

Contreras Peinado, Rafael Alfonso; Farfán Martínez, Ricardo José

dc.contributor.advisor	Hernández Cáceres, Javier	spa
dc.contributor.author	Contreras Peinado, Rafael Alfonso	spa
dc.contributor.author	Farfán Martínez, Ricardo José	spa
dc.date.accessioned	2020-06-26T17:56:25Z
dc.date.available	2020-06-26T17:56:25Z
dc.date.issued	2005
dc.identifier.uri	http://hdl.handle.net/20.500.12749/1326
dc.description.abstract	Ha existido un gran interés comercial por explotar los grandes volúmenes de información almacenada. Se cree que se está perdiendo una gran cantidad de información y conocimiento valioso que se podría extraer de los datos. Este es el caso de la industria petrolera, donde es almacenada una cantidad abundante de datos, donde solo una parte de estos son analizados (manualmente en su mayoría), debido a la falta de técnicas computarizadas aptas para estos análisis. Con la aplicación de técnicas de minería de datos en la planta DEMEX del ICP, se puede obtener un conocimiento valioso a partir de los patrones que puedan ser extraídos de los datos arrojados por esta planta. Por estas razones surge la aplicación de la minería de datos en la predicción de propiedades de hidrocarburos, ya que se cuenta con una buena cantidad de datos. Las soluciones que hemos estado trabajando, además de las técnicas de minería de datos (clustering, árboles de decisión y redes bayesianas), incluyen la aplicación de técnicas estadísticas (análisis de regresión y componentes principales) y la construcción de un prototipo que agilice el trabajo de los análisis de las técnicas sobre grandes volúmenes de datos, para con esto obtener resultados rápidos y confiables. En este proyecto influye la Ingeniería de Sistemas, ya que se aplican conocimientos referentes a la programación, como es la construcción del prototipo bajo la plataforma JAVA, el manejo del SILAB basado en ORACLE, y la Ingeniería del Software en la metodología del proyecto. Además del manejo de la gran cantidad de fórmulas matemáticas y estadísticas que actualmente nos encontramos aplicando.	spa
dc.description.tableofcontents	INTRODUCCIÓN 1. DESCUBRIMIENTO DE CONOCIMIENTO EN BASE DE DATOS (KDD) 12 2. MINERÍA DE DATOS 15 2.1 TIPOS DE APRENDIZAJE 15 2.1.1 Aprendizaje por Memorización 16 2.1.2 Aprendizaje por Instrucción 16 2.1.3 Aprendizaje por Deducción o Aprendizaje Guiado por la Especificación 16 2.1.4 Aprendizaje por Analogía 16 2.1.5 Aprendizaje por Inducción 17 2.1.6 Aprendizaje por Ejemplos 17 2.1.7 Aprendizaje por Observación y Descubrimiento 17 2.2 TAREAS DE UN SISTEMA DE MINERÍA DE DATOS 18 2.2.1 Descripción de clases 18 2.2.2 Asociación 18 2.2.3 Clasificación 18 2.2.4 Predicción 18 2.2.5 Clustering 19 2.2.6 Análisis de series a través del tiempo 19 2.3 TIPOS DE APRENDIZAJE 19 2.3.1 Aprendizaje activo/Diseño Experimental 19 2.3.2 Aprendizaje acumulativo 20 2.3.3 Aprendizaje multitarea 20 2.3.4 Aprendizaje a partir de datos tabulados y no tabulados 20 2.3.5 Aprendizaje relacional 21 2.3.6 Aprendiendo a partir de bases de datos de gran tamaño 21 2.3.7 Aprendiendo a partir de bases de datos extremadamente pequeñas 21 2.3.8 Aprendiendo con conocimientos previos 21 2.3.9 Aprendiendo a partir de datos de distintos tipos 22 2.3.10 Aprendiendo Relaciones Casuales 22 2.3.11 Visualización y Minería de Datos interactiva 22 2.4 COMPONENTES DE LA MINERÍA DE DATOS 22 2.4.1 Algoritmos de Clasificación 23 2.4.2 Algoritmos de Reglas de Asociación 25 2.4.3 Análisis de Secuencias 25 3. TÉCNICAS ESTADÍSTICAS Y DE MINERÍA DE DATOS UTILIZADAS 27 3.1 ANÁLISIS DE CORRELACIÓN 27 3.2 ANÁLISIS DE REGRESIÓN LINEAL 27 3.2.1 Eliminación Hacia Atrás 30 3.2.2 Estimación Paso a Paso 30 3.3 TABLA DE ANOVA 31.4 ANÁLISIS FACTORIAL 33 3.5 COMPONENTES PRINCIPALES 34 3.5.1 Semejanza entre los individuos de la Tabla de Datos 35 3.5.2 Relación entre las variables de la Tabla de Datos 35 3.6 ÁRBOLES DE DECISIÓN 36 3.7 CLUSTERING 37 3.8 REDES BAYESIANAS 40 3.8.1 Aprendizaje estructural 42 3.8.2 Aprendizaje paramétrico 42 4. HERRAMIENTAS DE MINERÍA DE DATOS Y ESTADÍSTICA UTILIZADOS 43 4.1 WEKA 43 4.2 SPSS 44 5. CONCLUSIONES 47 BIBLIOGRAFÍA 48 ANEXOS 51	spa
dc.format.mimetype	application/pdf	spa
dc.language.iso	spa	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/co/	*
dc.title	Aplicación de minería de datos en la predicción de propiedades de hidrocarburos e implementación de un prototipo	spa
dc.title.translated	Data mining application in the prediction of hydrocarbon properties and implementation of a prototype	eng
dc.degree.name	Ingeniero de Sistemas	spa
dc.coverage	Bucaramanga (Colombia)	spa
dc.publisher.grantor	Universidad Autónoma de Bucaramanga UNAB	spa
dc.rights.local	Abierto (Texto Completo)	spa
dc.publisher.faculty	Facultad Ingeniería	spa
dc.publisher.program	Pregrado Ingeniería de Sistemas	spa
dc.description.degreelevel	Pregrado	spa
dc.type.driver	info:eu-repo/semantics/bachelorThesis
dc.type.local	Trabajo de Grado	spa
dc.type.coar	http://purl.org/coar/resource_type/c_7a1f
dc.subject.keywords	Hydrocarbons	eng
dc.subject.keywords	Data mining	eng
dc.subject.keywords	Systems engineering	eng
dc.subject.keywords	Research	eng
dc.subject.keywords	ICP (Colombian Petroleum Institute)	eng
dc.subject.keywords	DEMEX Plant (Deasphalting Process)	eng
dc.subject.keywords	SILAB (System for the management of laboratory data)	eng
dc.subject.keywords	Multivariate statistics	eng
dc.identifier.instname	instname:Universidad Autónoma de Bucaramanga - UNAB	spa
dc.identifier.reponame	reponame:Repositorio Institucional UNAB	spa
dc.type.hasversion	info:eu-repo/semantics/acceptedVersion
dc.rights.accessrights	info:eu-repo/semantics/openAccess	spa
dc.rights.accessrights	http://purl.org/coar/access_right/c_abf2	spa
dc.relation.references	Contreras Peinado, Rafael Alfonso, Farfán Martínez, Ricardo José, Hernández Cáceres, Javier (2005). Aplicación de minería de datos en la predicción de propiedades de hidrocarburos e implementación de un prototipo. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB	spa
dc.relation.references	[1] DEBUSE, J.C.W., DE LA IGLESIA, B., C.M., Howard, Rayward-Smith, V.J.. A methodology for Knowledge Discovery: The KDD Roadmap. [en línea]. Estados Unidos: University of East Anglia. http://www.witnessminer.com/kddmethodology.html (Consulta: 18 de abril, 2005)	spa
dc.relation.references	[2] GARCÍA, R. Sistemas Autónomos: Aprendizaje Automático. Buenos Aires, Argentina: Nueva Librería. 1997.	spa
dc.relation.references	[3] THRUN, S., FALOUSTOS, C., MITCHELL, T., WASSERMAN, L. Automated Learning and Discovery: State-Of-The-Art and Research Topics in a Rapidly Growing Field. Pittisburgh, EE.UU: Center for Automated Learning and Discovery, Carnegie Mellon University. 1998. p. 98-100.	spa
dc.relation.references	[4] GÓMEZ, Antonio J. Minería de Datos. Madrid, España, 1998. p. 33-35.	spa
dc.relation.references	[5] JOSHI, K.P. Analysis of Data Mining Algorithms. [en línea]. Maryland, Estados Unidos: UMBC. http://userpages.umbc.edu/~kjoshi1/data-mine/proj_rpt.htm (Consulta: 19 de septiembre, 2005)	spa
dc.relation.references	[6] GRAJALES, Tevni. Correlación y regresión lineal múltiple. p. 1-3, [en línea]. Monterelos, México: Tevni Grajales, 2002. http://tgrajales.net/corregmul.pdf. (Consulta: 4 de marzo, 2005)	spa
dc.relation.references	[7] VILLAGARCÍA, Teresa. Regresión. p. 5 [en línea]. Madrid, España: Universidad Carlos III de Madrid, 2004. halweb.uc3m.es/esp/docencia/ Est2Leg/Apuntes%20Regresion.pdf (Consulta: 2 de marzo, 2005).	spa
dc.relation.references	[8] ALDÁS, Joaquín. El Análisis Multivariable: Conceptos Básicos. p. 19-20 [en línea]. Valencia, España: Universidad de Valencia, 2004. http://www.uv.es/~aldas/doctorado_1.html (Consulta: 2 de marzo, 2005).	spa
dc.relation.references	[9] OTERO, José; SÁNCHEZ, Ainhoa; MORAL, Eva. Análisis de la Varianza (ANOVA). p. 8-9, 14 [en línea]. Madrid, España: Universidad Autónoma de Madrid, 2005. http://www.uam.es/departamentos/economicas/econapli/anova.pdf (Consulta: 6 de marzo, 2005).	spa
dc.relation.references	[10] DONAIRE, Jose. Introducció a l'anàlisi factorial. [en línea]. Girona: Universidad de Girona. 2004. http://www.udg.es/dghha/cat/secciogeografia/prac/models/factorial(1).htm (Consulta: 4 de marzo de 2005)	spa
dc.relation.references	[11] HERVÁS-MARTÍNEZ, César; ROMERO, Cristóbal; VENTURA, Sebastián. Selección de medidas de evaluación de reglas obtenidas mediante programación genética basada en gramática, p. 9 [en línea]. Cordoba, España: Universidad de Córdoba, 2002. http://www.lsi.us.es/redmidas/Capitulos/LMD23.pdf (Consulta: 4 de marzo, 2005)	spa
dc.relation.references	[12] Universidad Católica De La Santísima Concepción - Facultad De Ingeniería. Análisis De Componentes Principales. p. 2-3 [en línea]. España: Universidad Católica De La Santísima Concepción. http://pdf.rincondelvago.com/analisis-de-componentes-principales.html (Consulta: 4 de marzo, 2005)	spa
dc.relation.references	[13] GARCÍA, Juan C. Minería de Datos. Bucaramanga, Colombia, 2002. p. 19-26.	spa
dc.relation.references	[14] MORALES, Eduardo. Descubrimiento de conocimiento en bases de datos. Clustering. [en línea]. México: Tecnológico de Monterrey, 2002. http://w3.mor.itesm.mx/~emorales/Cursos/KDD01/node36.html (Consulta: 4 de marzo, 2005)	spa
dc.relation.references	[15] MORALES, Eduardo. Descubrimiento de conocimiento en bases de datos. Redes bayesianas en minería de datos. [en línea]. México: Tecnológico de Monterrey, 2002. http://w3.mor.itesm.mx/~emorales/Cursos/KDD01/node35.html (Consulta: 4 de marzo, 2005)	spa
dc.relation.references	[16] Universidad de Waikato. WEKA 3.4. [en línea]. Nueva Zelanda: Universidad de Waikato. http://www.cs.waikato.ac.nz/~ml/weka/index.html (Consulta: 12 de marzo, 2005)	spa
dc.relation.references	[17] Statistical Package For The Social Sciences. SPSS 12.0. [en línea]. Chicago: Statistical Package For The Social Sciences. http://www.spss.com/downloads/Papers.cfm?ProductID=00035&Name=SPSS_Base&DLType=Demo (Consulta: 15 de marzo, 2005)	spa
dc.relation.references	[18] HAIR, Joseph; ANDERSON, Rolph; TATHAM, Ronald; BLACK, William. Análisis Multivariante. 5ta edición. Madrid, España, 2001. Prentice Hall. p. 100.	spa
dc.relation.references	[18] HAIR, Joseph; ANDERSON, Rolph; TATHAM, Ronald; BLACK, William. Análisis Multivariante. 5ta edición. Madrid, España, 2001. Prentice Hall. p. 100.	spa
dc.contributor.cvlac	Hernández Cáceres, Javier [0000817864]	*
dc.subject.lemb	Hidrocarburos	spa
dc.subject.lemb	Minería de datos	spa
dc.subject.lemb	Ingeniería de sistemas	spa
dc.subject.lemb	Investigaciones	spa
dc.description.abstractenglish	There has been great commercial interest in exploiting the large volumes of stored information. It is believed that a great deal of valuable information and knowledge that could be extracted from the data is being lost. This is the case of the oil industry, where an abundant amount of data is stored, where only a part of it is analyzed (mostly manually), due to the lack of computerized techniques suitable for these analyzes. With the application of data mining techniques in the ICP DEMEX plant, valuable knowledge can be obtained from the patterns that can be extracted from the data produced by this plant. For these reasons, the application of data mining arises in the prediction of hydrocarbon properties, since there is a good amount of data. The solutions we have been working on, in addition to data mining techniques (clustering, decision trees and Bayesian networks), include the application of statistical techniques (regression analysis and principal components) and the construction of a prototype that speeds up the work. of the analysis of the techniques on large volumes of data, in order to obtain fast and reliable results. Systems Engineering influences this project, since knowledge related to programming is applied, such as the construction of the prototype under the JAVA platform, the management of the SILAB based on ORACLE, and Software Engineering in the project methodology. In addition to managing the large number of mathematical and statistical formulas that we are currently applying.	eng
dc.subject.proposal	ICP (Instituto Colombiano del Petróleo)
dc.subject.proposal	Planta DEMEX (Proceso de desasfaltado)
dc.subject.proposal	SILAB (Sistema para el manejo de datos de laboratorio)
dc.subject.proposal	Estadística multivariada
dc.type.redcol	http://purl.org/redcol/resource_type/TP
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 2.5 Colombia	*
dc.coverage.campus	UNAB Campus Bucaramanga	spa
dc.description.learningmodality	Modalidad Presencial	spa

Ficheros en el ítem

Nombre:: 2005_Tesis_Rafael_Alfonso_Cont ...
Tamaño:: 2.804Mb
Formato:: PDF
Descripción:: Tesis

Ver/

Nombre:: 2005_Anexos_Rafael_Alfonso_Con ...
Tamaño:: 2.560Mb
Formato:: Desconocido
Descripción:: Anexos

Ver/

Este ítem aparece en la(s) siguiente(s) colección(ones)

Ingeniería de Sistemas [374]

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 2.5 Colombia