Identificação de padrões em textos de mídias sociais utilizando redes neurais e visualização de dados
Date
2018-02-05Author
Sargiani, Vagner
Advisor
Silva, Leandro Augusto da
Referee
Notargiacomo, Pollyana Coelho da Silva
Referee
Barcelos, Thiago Schumacher
Metadata
Show full item recordAbstract
At present there is the generation of a large volume of textual data, and part of this
volume is generated by so-called social media, where people connect, exchange information
and experiences.These data contains valuable implicit knowledge, which can be extracted
and analyzed according to the media selected and the type of knowledge wanted. The
objective of this work is to demonstrate how to use data mining resources, analytical
tools and neural networks of the type Self Organizing Maps (SOM) to perform analysis
on textual data and knowledge generation. There will be two approaches: knowledge for
the educational area (with data from Question and Answer sites, or simply (Q&A))) and
trend identi_cation (with posts in microblog Twitter). Both sources are similar in that
they have an unstructured text format. Based on an array of terms generated through
Text Mining techniques, originated in a base composed by unstructured text, the posts
were the basis for training a SOM network, and with this trained network it was possible
to generate visualizations that allow to perform semantic analysis of the terms and
questions grouped together and use them to identify the desired knowledge. The results
obtained were: to demonstrate that questions about similar subjects can be grouped by
their similarity of terms, and to visualize these groupings in the form of word clouds,
allowing the semantic analysis on the grouped questions.
Summary
Na atualidade existe a geração de um grande volume de dados textuais, sendo que parte
deste volume é gerado pelas chamadas mídias sociais, no qual pessoas se conectam, trocam
informações e experiências. Estes dados contém conhecimento implícito valioso, que
pode ser extraído e analisado de acordo com a mídia selecionada e o tipo de conhecimento
procurado. O objetivo deste trabalho é demonstrar como utilizar recursos de mineração
de dados, ferramentas analíticas e redes neurais do tipo Self Organized Maps (SOM) para
efetuar análise sobre dados textuais e geração de conhecimento. Serão duas as abordagens:
conhecimentos voltados para a área educacional (com dados de sites de Perguntas e
Respostas (Question and Answers, ou simplesmente Q&A)) e identificação de tendências
(com postagens no microblog Twitter). Ambas as fontes são similares em possuirem um
formato de texto não estruturado. Com base em uma matriz de termos gerada através
de técnicas de Mineração de Textos, originada em uma base composta por texto não estruturado,
as postagens foram a base para treinamento de uma rede SOM, e com esta
rede treinada foi possível gerar visualizações que permitem efetuar análises semânticas
dos termos e questões agrupados e utilizá-las para identificação do conhecimento desejado.
Os resultados obtidos foram: demonstrar que questões sobre assuntos similares
podem ser agrupadas pela sua similaridade de termos, e visualizar estes agrupamentos em
forma de nuvens de palavras, permitindo a análise semântica sobre as questões agrupadas.
CNPq Area
CNPQ::CIENCIAS EXATAS E DA TERRA CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Citation
SARGIANI, Vagner. Identificação de padrões em textos de mídias sociais utilizando redes neurais e visualização de dados. 2018. 64 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.