Proyecto identificación de buenas prácticas

Creación de la base de datos

Limpieza del texto

Lectura de datos y carga de paquetes

Tokenizar

Eliminar stopwords

Nube de palabras

Aprendizaje por clusterización

Evaluación

Perfilamiento

ANÁLISIS CON TOPIC MODELING

Interpretación

MODELAMIENTO

Se usarán tres modelos de análisis de tópicos.

1) Latent Dirichlet Allocation (LDA)

2) Latent semantic analysis (LSA)

3) Hierichal Dirichlet Process (HDP)

4) Latent Semantic Analysis (LSA)

Se busca evaluar los modelos teniendo en cuenta topic coherence.

Construcción de diccionario y corpus

Hierichal Dirichlet Process Model

Maximizar Likehood positiva = Minimizar negative Likehood

Evaluacion con $\alpha=1$,$\beta=1$, K=[5,5,15], T=[15,10,150]

Evaluacion con K=5, T=15, $\alpha=[0.01,0.31,0.61,0.91]$, $\beta=[0.01,0.31,0.61,0.91]$

Evaluacion con K=5, T=10, $\alpha=[0.01,0.31,0.61,0.91]$, $\beta=[0.01,0.31,0.61,0.91]$

Modelo 1: $\alpha$=1, $\gamma$=1

Función para mostrar los topicos del modelo

Modelo 2: $\alpha$=0.31, $\gamma$=0.31

Modelo 3: $\alpha$=0.01, $\gamma$=1

Modelo 4: $\alpha$=1, $\gamma$=0.01

Función para la evaluación de modelos

modelo LSI

Latent Dirichlet Allocation Model

LDA Multicore model

Comparación de los diferentes modelos

Comparación con la coherencia de cada modelo

En este caso el modelo hdp_coherence con cerca de 9 tópicos es el que presenta la mayor coherencia.

Obtención de tópicos

De acuerdo con esto los topicos son:

  1. Topic 1: Gestión de sistemas de riego iot inteligente
  2. Topic 2: Sistemas de gestión de riego usando tecnologías emergentes.
  3. Topic 3: Variables empleadas usadas en sistemas de gestión de riego
  4. Topic 4: Sistemas de decisión de riego para campesinos
  5. Topic 5: Sensores de tierra empleados en sistemas de gestión de riego
  6. Topic 6: Modelamiento de un sistema de gestión de riego iot en agricultura
  7. Topic 7: Sistemas de control de riego iot en agricultura (Gestión del cultivo)
  8. Topic 8: Datos obtenidos por sistemas de gestión de riego iot en agricultura (relacionado con la tierra)
  9. Topic 9: Datos obtenidos por sensores de humedad

Clasificación de documentos

Ya que se selecciono el mejor modelo y el mejor número de topicos, es tiempo de asignar tópicos a cada uno de los registros lo cual se puede ver como un cluster de acuerdo con los topicos.

De acuerdo con esto los topicos son:

Podemos crear un diccionario con los topicos resumidos en una palabra para crear una funcion y hacer un mapeo sobre los numeros.

Análisis de distribución de tópicos

Unigrams + Wordcloud TFIDF

Análisis de bigramas

Análisis de trigramas

NEURAL NETWORK