A análise de dados feita pelo nosso grupo de pesquisa é decorrente da aplicação do método de clusterização LDA (Latent Dirichlet Allocation), um algoritmo de aprendizagem não surpervisionada. O conjunto de dados utilizado provém do
Kaggle que contém mais de 40 mil artigos sobre o COVID-19, porém utilizamos apenas os que têm textos completos, que são por volta de 29 mil. Os tópicos são aprendidos como uma distribuição de probabilidade sobre as palavras que ocorrem em cada artigo. Cada artigo é uma combinação de um ou mais tópicos.
O primeiro gráfico é uma redução de dimensão para 2D para visualizarmos os documentos (a cor indica o tópico do documento).
O segundo é um gráfico interativo onde cada bolha é um tópico. Ao passarmos o mouse em cima de cada bolha (tópico), podemos ver as palavras mais significativas do mesmo.