Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje

Aponte Novoa, Fredy Andrés

dc.contributor.advisor	Hernández Cáceres, Javier	spa
dc.contributor.author	Aponte Novoa, Fredy Andrés	spa
dc.date.accessioned	2020-06-26T21:34:52Z
dc.date.available	2020-06-26T21:34:52Z
dc.date.issued	2011-07-18
dc.identifier.uri	http://hdl.handle.net/20.500.12749/3457
dc.description.abstract	En este trabajo se describe el desarrollo de un prototipo para la detección automática de perfiles de usuarios, el cual realiza recomendaciones a el administrador web teniendo en cuenta la navegación de los usuarios, aplicando técnicas de minería de datos. El prototipo se compone de 5 etapas: carga de datos, preprocesamiento, sesionalizacion, identificación de perfiles y recomendaciones. En la carga de datos, los registros de acceso son leídos desde el archivo Log generado por el servidor Web. Este archivo puede encontrarse en diferentes formatos pero el prototipo trabaja con archivos en formato NCSA generado por servidores Web Apache. La etapa de preprocesamiento de datos, se divide en 3 tareas: -Selección. –Limpieza. – Transformación. En la primera tarea se analizan los atributos que conforman el archivo de log y se identifican cuáles son relevantes en la identificación de perfiles de usuario. La tarea de limpieza está orientada a eliminar todos los datos innecesarios para las siguientes etapas, como son los registros de robots, solicitudes no exitosas, objetos de páginas y registro de páginas índice. Como último paso en la transformación de los datos se realiza la identificación de perfiles de usuario. La penúltima etapa, la sesionalización se encarga de identificar las sesiones de navegación de los usuarios, para esta tarea se maneja un umbral de tiempo para identificar las visitas correspondientes a una misma sesión. La última etapa llamada etapa de recomendación, el sistema realiza una serie de informes usados por el administrador web para realizar mejorar al sitio web.	spa
dc.description.sponsorship	Universitat Oberta de Catalunya UOC	spa
dc.description.tableofcontents	Introduccion 12 1. Planteamiento del problema 15 2. Justificación 16 3. Objetivos 17 3.1 objetivo general 17 3.2 objetivos específicos 17 4. Estado del arte 18 4.1 minería web 18 4.2 fases de la minería web 18 4.3 categorías de la minería web 19 4.4 técnicas empleadas en la minería de uso de web 20 4.5 archivo log 21 4.6 trabajos realizados 22 5. Diseño metodologico para el prototipo de sistema 25 5.1 preprocesamiento de los datos 25 limpieza de los datos. 26 eliminación de accesos realizados por robots. 26 eliminación de registros basado en el código de estado http. 27 eliminación de duplicidad. 28 5.2 algoritmo apriori 30 6. Arquitectura y diseño del prototipo 32 6.1 carga y preprocesamiento de los datos 33 6.2 sesionalización 34 6.3 construcción de perfiles 34 6.4 recomendaciones 34 6.5 diagrama de casos de uso 35 7. Construcción 36 7.1 base de datos 36 7.2 codificación en java 37 7.3 herramientas de desarrollo 41 7.4 descripción de pantallas construidas 42 Ventana Principal 42 Carga. 43 PreProcesamiento. 45 Sesionalización. 46 Perfiles y recomendación. 48 Informe por barras. 50 Informe en torta o circular. 51 Acerca de. 52 8. ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 53 8.1 CARGA DE DATOS 55 8.2 LIMPIEZA DE DATOS 55 8.3 INFORMES 56 Páginas más visitadas. 56 Páginas menos visitadas. 58 Usuarios más Activos. 60 Visitas por hora del día. 62 Visitas por día de la semana. 64 Reglas de asociación. 65 9. CONCLUSIONES 67 10. BIBLIOGRAFÍA 68	spa
dc.format.mimetype	application/pdf	spa
dc.language.iso	spa	spa
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/co/	*
dc.title	Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje	spa
dc.title.translated	Prototype for the automatic detection of user navigation profiles of a company applying data mining techniques and learning algorithms	eng
dc.degree.name	Magíster en Software Libre	spa
dc.coverage	Bucaramanga (Colombia)	spa
dc.publisher.grantor	Universidad Autónoma de Bucaramanga UNAB	spa
dc.rights.local	Abierto (Texto Completo)	spa
dc.publisher.faculty	Facultad Ingeniería	spa
dc.publisher.program	Maestría en Software Libre	spa
dc.description.degreelevel	Maestría	spa
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.local	Tesis	spa
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.subject.keywords	Systems Engineering	eng
dc.subject.keywords	Internet users	eng
dc.subject.keywords	Web	eng
dc.subject.keywords	Data mining	eng
dc.subject.keywords	Research	eng
dc.identifier.instname	instname:Universidad Autónoma de Bucaramanga - UNAB	spa
dc.identifier.reponame	reponame:Repositorio Institucional UNAB	spa
dc.type.hasversion	info:eu-repo/semantics/acceptedVersion
dc.rights.accessrights	info:eu-repo/semantics/openAccess	spa
dc.rights.accessrights	http://purl.org/coar/access_right/c_abf2	spa
dc.relation.references	Aponte Novoa, Fredy Andrés (2011). Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB, Universitat Oberta de Catalunya UOC	spa
dc.relation.references	[HAN01] HAN Jiawei, KAMBER Micheline. (2001). Data Mining Concepts and Techniques. Morgan and Kaufman.	spa
dc.relation.references	[HAN05] HAN Xiwu, ZHAO Tiejun. (2005). Auto-K Dynamic Clustering Algorithm	spa
dc.relation.references	[KAN03] KANTARDZIC Mehmed. (2003). Data Mining Concepts, Models, methods and algorithms	spa
dc.relation.references	[MAR] MARTÍN Bautista, MARÍA J, Vila María Amparo. Building adaptive user profiles by a genetic fuzzy classifier with feature selection.	spa
dc.relation.references	[MIT03] MITRA Sushmita, ACHARYA Tinku. (2003). Data Mining Multimedia, Soft Computing And Bioinformatics. New Jersey: John Wiley & Sons, Inc.	spa
dc.relation.references	[NAS99] NASRAOUI Olfa, FRIGUI Hichem, JOSHI Anupam, KRISHNAPURAM Raghu. (1999). Mining Web Access Logs Using Relational Competitive Fuzzy Clustering	spa
dc.relation.references	[LAB03] LABROCHE Nicolas, MONMARCH´E Nicolas, VENTURINI Gilles. (2003). Web sessions Clustering with artificial ants colonies.	spa
dc.relation.references	[ROM05] ROMÁN Ulises, ALARCÓN Luis. (2005). Minería De Uso De Web Para Predicción De Usuarios En La Universidad	spa
dc.relation.references	[SAR00] SARWAR Badrul, KARYPIS George, KONSTAN Joseph, RIED John. (2000). Analysis of Recommendation Algorithms for E-Commerce	spa
dc.relation.references	[SHA05] SHANKAR Bhushan , SHIRI Nematollaah, Sudhir P. (2005). Mudur Incremental Relational Fuzzy Subtractive Clustering for Dynamic Web Usage Profiling.	spa
dc.relation.references	[STU02] STUMME Gerd, HOTHO Andreas, BERENDT Bettina. (2002). Usage Mining for and on the Semantic Web	spa
dc.relation.references	[VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press	spa
dc.relation.references	[VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press	spa
dc.contributor.cvlac	Hernández Cáceres, Javier [0000817864]	*
dc.subject.lemb	Ingeniería de sistemas	spa
dc.subject.lemb	Usuarios de internet	spa
dc.subject.lemb	Web	spa
dc.subject.lemb	Minería de datos	spa
dc.subject.lemb	Investigaciones	spa
dc.description.abstractenglish	This work describes the development of a prototype for the automatic detection of user profiles, which makes recommendations to the web administrator, taking into account user navigation, applying data mining techniques. The prototype consists of 5 stages: data loading, pre-processing, sessionization, identification of profiles and recommendations. In data loading, the access logs are read from the log file generated by the Web server. This file can be in different formats but the prototype works with files in NCSA format generated by Apache Web servers. The data pre-processing stage is divided into 3 tasks: -Selection. -Cleaning. - Transformation. In the first task, the attributes that make up the registry file are analyzed and relevant results are identified in the identification of user profiles. The cleanup task is aimed at removing all unnecessary data for the next stages, such as robot registrations, unsuccessful requests, page objects, and index page registration. As the last step in the transformation of the data, the identification of user profiles is carried out. The penultimate stage, the sessionization is responsible for identifying the users' browsing sessions, for this task a time threshold is handled to identify the visits corresponding to the same session. The last stage called the recommendation stage, the system performs a series of reports used by the web administrator to improve the website.	eng
dc.subject.proposal	Perfiles de usuarios
dc.subject.proposal	Administrador web
dc.subject.proposal	Carga de datos
dc.type.redcol	http://purl.org/redcol/resource_type/TM
dc.type.redcol	http://purl.org/redcol/resource_type/TM
dc.rights.creativecommons	Atribución-NoComercial-SinDerivadas 2.5 Colombia	*
dc.contributor.researchgroup	Grupo de Investigación Tecnologías de Información - GTI	spa
dc.contributor.researchgroup	Grupo de Investigaciones Clínicas	spa
dc.coverage.campus	UNAB Campus Bucaramanga	spa
dc.description.learningmodality	Modalidad Presencial	spa