Desarrollo de un sistema de análisis de autoría de textos de literatura de autores hispanohablantes
Citación
Comparte este contenido
Fecha
2019Otros contribuidores
Metadatos
Mostrar el registro completo del ítemDocumentos PDF
Resumen
Tras el notorio auge de aplicaciones de Machine Learning en los últimos años, mayoritariamente del procesamiento de imágenes y audio, son pocas las aplicaciones en el área de la literatura, especialmente el reconocimiento de autoría. Por eso surge la pregunta ¿Qué tan efectivas son las técnicas de Machine Learning para la identificación de patrones de grandes volúmenes de textos literarios en el contexto hispanoamericano? Por ende, el objetivo de este trabajo fue desarrollar un sistema inteligente de reconocimiento de estilos literarios basado en obras de literatura universal en español, para automatizar la creación de textos que repliquen el estilo de los autores.
Para llevar acabo la investigación se realizó una revisión del estado del arte en técnicas de Machine Learning para la problemática de clasificación de textos y el procesamiento del lenguaje natural. Posteriormente se recolectaron 86 obras
literarias de dominio público de 8 autores, a la cual se le realizó un preprocesamiento para la extracción de características de frecuencia inversa de documento (TF-IDF), que se usan para formar vectores de características. Los modelos de Machine Learning propuestos fueron Naïve Bayes, Support Vector Machine y K-Nearest Neighbors; para la clasificación, y cadenas de Markov para la generación de texto, siendo el modelo de clasificación con mejor resultado Naïves Bayes con un accuracy de 0.6453125, y mejor valor del hiperparámetro keysize para la cadena de Markov de 3. Teniendo esto en cuenta cabe resaltar las limitaciones tenidas en este proyecto debido a los modelos de Machine Learning utilizados junto a la cantidad de características extraídas, y se recomienda implementar nuevos modelos capacitados en el análisis de series de tiempo temporales.
Palabras clave
Ingeniería de sistemas; Innovaciones tecnológicas; Inteligencia artificial; Teoría de las máquinas; Autores; Procesamiento de datosKeywords
Systems engineer; Technological innovations; Machine learning; Authorship; Literature; Natural language processing; Categorization; Artificial intelligence; Machine theory; Authors; Data processingEnlace a este registro en el Repositorio Institucional UNAB
http://hdl.handle.net/20.500.12749/14040
Comentarios
Colecciones
- Ingeniería de Sistemas [374]