Use este identificador para citar ou linkar para este item: http://dspace.mackenzie.br/handle/10899/13167
Tipo do documento: Dissertação
Título: Classificação de gênero em dados do Twitter baseada na extração de meta-atributos textuais
Autor: Lopes Filho, José Ahirton Batista
Primeiro orientador: Castro, Leandro Nunes de
Primeiro coorientador: Pasti, Rodrigo
Primeiro membro da banca: Mustaro, Pollyana Notargiacomo
Segundo membro da banca: Ferrari, Daniel Gomes
Terceiro membro da banca: Silveira, Ismar Frango
Quarto membro da banca: França, Fabrício Olivetti de
Resumo: Com o crescimento das mídias sociais nos últimos anos tem havido um aumento de interesse na caracterização automática dos usuários com base no conteúdo informal que eles geram. Neste contexto, a rotulação dos usuários em categorias demográficas tais como idade, etnia, origem e raça, bem como a investigação de outros atributos inerentes aos usuários, como preferências políticas, personalidade e expressão de gênero, tem recebido grande atenção, especialmente com base em dados do Twitter. O presente trabalho é centrado na tarefa de classificação de gênero, propondo 65 meta-atributos textuais, comumente usados em tarefas de atribuição de texto, para a extração de características linguísticas quanto à expressão de gênero em tweets escritos em Português. São considerados caracteres, sintaxe, palavras, estrutura e morfologia, além de determinados atributos psicolinguísticos, dos textos de comprimento curto, multi-gênero e de livre conteúdo postados no Twitter para a classificação de gênero do autor por meio de quatro algoritmos de aprendizado de máquina diferentes. Também é avaliada a influência dos meta-atributos propostos para este processo.
Abstract: With the growth of social media in recent years, there has been an increase on the interest in the automatic characterization of users based on the informal content they generate. In this context, the labeling of users in demographic categories, such as age, ethnicity, origin and race,and the investigation of other attributes inherent to users, such as political preferences, personality and gender expression, has received a great deal of attention, especially based on Twitter data. The present work focuses on the task of gender classification by using 65 textual meta-attributes, commonly used in text attribution tasks, for the extraction of gender expression linguistic cues in tweets written in Portuguese.The work takes into account characters, syntax, words, structure and morphology, as well as selected psycolinguistic cues of short length, multi-genre, content free texts posted on Twitter to classify author's gender via four different machine-learning algorithms. The proposed meta-attributes in this process are also evaluated.
Palavras-chave: aprendizado de máquina; classificação; gênero; mídias sociais; Twitter; extração; meta-atributos; português;  machine-learning; classification; gender; social media;Twitter; extraction; meta-attributes; portuguese language
Área(s) do CNPq: CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
Idioma: por
País: Brasil
Instituição: Universidade Presbiteriana Mackenzie
Sigla da instituição: UPM
Departamento: Escola de Engenharia Mackenzie (EE)
Programa: Engenharia Elétrica
Citação: Lopes Filho, José Ahirton Batista. Classificação de gênero em dados do Twitter baseada na extração de meta-atributos textuais. 2016. 67 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo .
Tipo de acesso: Acesso Aberto
Endereço da licença: http://creativecommons.org/licenses/by-nc-nd/4.0/
URI: http://tede.mackenzie.br/jspui/handle/tede/2810
http://dspace.mackenzie.br/handle/10899/13167
Data de defesa: 17-Fev-2016
metadata.dc.bitstream.url: http://tede.mackenzie.br/jspui/bitstream/tede/2810/5/JOSE%20AHYRTON%20BATISTA%20LOPES%20FILHO.pdf
Aparece nas coleções:Engenharia Elétrica - Dissertações - EE Higienópolis

Arquivos associados a este item:
Não existem arquivos associados a este item.


Este arquivo é protegido por direitos autorais



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.