dc.contributor.advisor | Hernández Cáceres, Javier | spa |
dc.contributor.author | Aponte Novoa, Fredy Andrés | spa |
dc.date.accessioned | 2020-06-26T21:34:52Z | |
dc.date.available | 2020-06-26T21:34:52Z | |
dc.date.issued | 2011-07-18 | |
dc.identifier.uri | http://hdl.handle.net/20.500.12749/3457 | |
dc.description.abstract | En este trabajo se describe el desarrollo de un prototipo para la detección automática de perfiles de usuarios, el cual realiza recomendaciones a el administrador web teniendo en cuenta la navegación de los usuarios, aplicando técnicas de minería de datos.
El prototipo se compone de 5 etapas: carga de datos, preprocesamiento, sesionalizacion, identificación de perfiles y recomendaciones.
En la carga de datos, los registros de acceso son leídos desde el archivo Log generado por el servidor Web. Este archivo puede encontrarse en diferentes formatos pero el prototipo trabaja con archivos en formato NCSA generado por servidores Web Apache.
La etapa de preprocesamiento de datos, se divide en 3 tareas: -Selección. –Limpieza. – Transformación. En la primera tarea se analizan los atributos que conforman el archivo de log y se identifican cuáles son relevantes en la identificación de perfiles de usuario.
La tarea de limpieza está orientada a eliminar todos los datos innecesarios para las siguientes etapas, como son los registros de robots, solicitudes no exitosas, objetos de páginas y registro de páginas índice. Como último paso en la transformación de los datos se realiza la identificación de perfiles de usuario.
La penúltima etapa, la sesionalización se encarga de identificar las sesiones de navegación de los usuarios, para esta tarea se maneja un umbral de tiempo para identificar las visitas correspondientes a una misma sesión.
La última etapa llamada etapa de recomendación, el sistema realiza una serie de informes usados por el administrador web para realizar mejorar al sitio web. | spa |
dc.description.sponsorship | Universitat Oberta de Catalunya UOC | spa |
dc.description.tableofcontents | Introduccion 12
1. Planteamiento del problema 15
2. Justificación 16
3. Objetivos 17
3.1 objetivo general 17
3.2 objetivos específicos 17
4. Estado del arte 18
4.1 minería web 18
4.2 fases de la minería web 18
4.3 categorías de la minería web 19
4.4 técnicas empleadas en la minería de uso de web 20
4.5 archivo log 21
4.6 trabajos realizados 22
5. Diseño metodologico para el prototipo de sistema 25
5.1 preprocesamiento de los datos 25
limpieza de los datos. 26
eliminación de accesos realizados por robots. 26
eliminación de registros basado en el código de estado http. 27
eliminación de duplicidad. 28
5.2 algoritmo apriori 30
6. Arquitectura y diseño del prototipo 32
6.1 carga y preprocesamiento de los datos 33
6.2 sesionalización 34
6.3 construcción de perfiles 34
6.4 recomendaciones 34
6.5 diagrama de casos de uso 35
7. Construcción 36
7.1 base de datos 36
7.2 codificación en java 37
7.3 herramientas de desarrollo 41
7.4 descripción de pantallas construidas 42
Ventana Principal 42
Carga. 43
PreProcesamiento. 45
Sesionalización. 46
Perfiles y recomendación. 48
Informe por barras. 50
Informe en torta o circular. 51
Acerca de. 52
8. ANÁLISIS E INTERPRETACIÓN DE RESULTADOS 53
8.1 CARGA DE DATOS 55
8.2 LIMPIEZA DE DATOS 55
8.3 INFORMES 56
Páginas más visitadas. 56
Páginas menos visitadas. 58
Usuarios más Activos. 60
Visitas por hora del día. 62
Visitas por día de la semana. 64
Reglas de asociación. 65
9. CONCLUSIONES 67
10. BIBLIOGRAFÍA 68 | spa |
dc.format.mimetype | application/pdf | spa |
dc.language.iso | spa | spa |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/co/ | * |
dc.title | Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje | spa |
dc.title.translated | Prototype for the automatic detection of user navigation profiles of a company applying data mining techniques and learning algorithms | eng |
dc.degree.name | Magíster en Software Libre | spa |
dc.coverage | Bucaramanga (Colombia) | spa |
dc.publisher.grantor | Universidad Autónoma de Bucaramanga UNAB | spa |
dc.rights.local | Abierto (Texto Completo) | spa |
dc.publisher.faculty | Facultad Ingeniería | spa |
dc.publisher.program | Maestría en Software Libre | spa |
dc.description.degreelevel | Maestría | spa |
dc.type.driver | info:eu-repo/semantics/masterThesis | |
dc.type.local | Tesis | spa |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc | |
dc.subject.keywords | Systems Engineering | eng |
dc.subject.keywords | Internet users | eng |
dc.subject.keywords | Web | eng |
dc.subject.keywords | Data mining | eng |
dc.subject.keywords | Research | eng |
dc.identifier.instname | instname:Universidad Autónoma de Bucaramanga - UNAB | spa |
dc.identifier.reponame | reponame:Repositorio Institucional UNAB | spa |
dc.type.hasversion | info:eu-repo/semantics/acceptedVersion | |
dc.rights.accessrights | info:eu-repo/semantics/openAccess | spa |
dc.rights.accessrights | http://purl.org/coar/access_right/c_abf2 | spa |
dc.relation.references | Aponte Novoa, Fredy Andrés (2011). Prototipo para la detección automática de perfiles de navegación de usuarios de una empresa aplicando técnicas de minería de datos y algoritmos de aprendizaje. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB, Universitat Oberta de Catalunya UOC | spa |
dc.relation.references | [HAN01] HAN Jiawei, KAMBER Micheline. (2001). Data Mining Concepts and Techniques. Morgan and Kaufman. | spa |
dc.relation.references | [HAN05] HAN Xiwu, ZHAO Tiejun. (2005). Auto-K Dynamic Clustering Algorithm | spa |
dc.relation.references | [KAN03] KANTARDZIC Mehmed. (2003). Data Mining Concepts, Models, methods and algorithms | spa |
dc.relation.references | [MAR] MARTÍN Bautista, MARÍA J, Vila María Amparo. Building adaptive user profiles by a genetic fuzzy classifier with feature selection. | spa |
dc.relation.references | [MIT03] MITRA Sushmita, ACHARYA Tinku. (2003). Data Mining Multimedia, Soft Computing And Bioinformatics. New Jersey: John Wiley & Sons, Inc. | spa |
dc.relation.references | [NAS99] NASRAOUI Olfa, FRIGUI Hichem, JOSHI Anupam, KRISHNAPURAM Raghu. (1999). Mining Web Access Logs Using Relational Competitive Fuzzy Clustering | spa |
dc.relation.references | [LAB03] LABROCHE Nicolas, MONMARCH´E Nicolas, VENTURINI Gilles. (2003). Web sessions Clustering with artificial ants colonies. | spa |
dc.relation.references | [ROM05] ROMÁN Ulises, ALARCÓN Luis. (2005). Minería De Uso De Web Para Predicción De Usuarios En La Universidad | spa |
dc.relation.references | [SAR00] SARWAR Badrul, KARYPIS George, KONSTAN Joseph, RIED John. (2000). Analysis of Recommendation Algorithms for E-Commerce | spa |
dc.relation.references | [SHA05] SHANKAR Bhushan , SHIRI Nematollaah, Sudhir P. (2005). Mudur Incremental Relational Fuzzy Subtractive Clustering for Dynamic Web Usage Profiling. | spa |
dc.relation.references | [STU02] STUMME Gerd, HOTHO Andreas, BERENDT Bettina. (2002). Usage Mining for and on the Semantic Web | spa |
dc.relation.references | [VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press | spa |
dc.relation.references | [VEL08] VELASQUEZ J. D, PALADE V. (2008). Adaptive Web site: A Knowledge Extraction from Web Data Approach. IOS Press | spa |
dc.contributor.cvlac | Hernández Cáceres, Javier [0000817864] | * |
dc.subject.lemb | Ingeniería de sistemas | spa |
dc.subject.lemb | Usuarios de internet | spa |
dc.subject.lemb | Web | spa |
dc.subject.lemb | Minería de datos | spa |
dc.subject.lemb | Investigaciones | spa |
dc.description.abstractenglish | This work describes the development of a prototype for the automatic detection of user profiles, which makes recommendations to the web administrator, taking into account user navigation, applying data mining techniques.
The prototype consists of 5 stages: data loading, pre-processing, sessionization, identification of profiles and recommendations.
In data loading, the access logs are read from the log file generated by the Web server. This file can be in different formats but the prototype works with files in NCSA format generated by Apache Web servers.
The data pre-processing stage is divided into 3 tasks: -Selection. -Cleaning. - Transformation. In the first task, the attributes that make up the registry file are analyzed and relevant results are identified in the identification of user profiles.
The cleanup task is aimed at removing all unnecessary data for the next stages, such as robot registrations, unsuccessful requests, page objects, and index page registration. As the last step in the transformation of the data, the identification of user profiles is carried out.
The penultimate stage, the sessionization is responsible for identifying the users' browsing sessions, for this task a time threshold is handled to identify the visits corresponding to the same session.
The last stage called the recommendation stage, the system performs a series of reports used by the web administrator to improve the website. | eng |
dc.subject.proposal | Perfiles de usuarios | |
dc.subject.proposal | Administrador web | |
dc.subject.proposal | Carga de datos | |
dc.type.redcol | http://purl.org/redcol/resource_type/TM | |
dc.type.redcol | http://purl.org/redcol/resource_type/TM | |
dc.rights.creativecommons | Atribución-NoComercial-SinDerivadas 2.5 Colombia | * |
dc.contributor.researchgroup | Grupo de Investigación Tecnologías de Información - GTI | spa |
dc.contributor.researchgroup | Grupo de Investigaciones Clínicas | spa |
dc.coverage.campus | UNAB Campus Bucaramanga | spa |
dc.description.learningmodality | Modalidad Presencial | spa |