Modelo de síntese de fala para línguas com recursos limitados : uma investigação da quantidade de dados para garantir inteligibilidade

Silva, Larissa Santoni

Modelo de síntese de fala para línguas com recursos limitados : uma investigação da quantidade de dados para garantir inteligibilidade

dc.contributor.advisor	Silva, Leandro Augusto da
dc.contributor.author	Silva, Larissa Santoni
dc.date.accessioned	2025-04-24T15:33:58Z
dc.date.available	2025-04-24T15:33:58Z
dc.date.issued	2025-02-24
dc.description.abstract	Nesta dissertação de mestrado foi conduzida uma investigação com o objetivo de desenvolver um modelo de síntese de fala para línguas com recursos limitados, com o intuito de abordar a exclusão tecnológica e a falta de documentação enfrentadas por essas comunidades linguísticas. Foi proposto um modelo acessível e escalável, projetado para operar em ambientes de baixa infraestrutura e adaptável por comunida des indígenas, com vistas à preservação e revitalização de suas línguas. A pesquisa fundamentou-se na utilização de ferramentas de código aberto, como a plataforma Coqui TTS, e no ambiente computacional Google Colab Pro, que possibilitaram a execu ção dos experimentos mesmo em condições restritas. Os dados de treinamento foram escalonados em diferentes volumes, variando de 30 minutos a 6 horas de gravações, com o objetivo de avaliar a influência da quantidade de dados sobre a inteligibilidade do modelo. A metodologia foi aprimorada pela conversão de texto em fonemas, realizada com a utilização da biblioteca espeak, o que permitiu superar limitações observadas na abordagem inicial baseada no uso de caracteres. Foi validado que o uso de fone mas proporcionou uma representação mais eficaz das características fonéticas das línguas-alvo, resultando em melhorias significativas na qualidade da síntese de fala. Adicionalmente, foram realizadas validações do modelo em contextos computacionais limitados, confirmando sua viabilidade prática e sua escalabilidade para outras línguas de poucos recursos. Os resultados obtidos evidenciaram que a abordagem proposta é eficaz na democratização da tecnologia de síntese de fala, ao oferecer uma solução replicável e acessível para comunidades linguísticas marginalizadas. Foi destacada a relevância social e tecnológica que o projeto busca, ao integrar inovação, simplicidade e eficácia no enfrentamento da exclusão linguística, estabelecendo um marco para futuras pesquisas e aplicações no campo da preservação cultural. Assim, o projeto fornece uma base metodológica, por meio de um notebook para expandir iniciativas similares para outras línguas ameaçadas de extinção, reforçando seu impacto na diversidade linguística e cultural.
dc.identifier.uri	https://dspace.mackenzie.br/handle/10899/40560
dc.language.iso	pt_BR
dc.language.iso	en
dc.publisher	Universidade Presbiteriana Mackenzie
dc.publisher.country	Brasil
dc.publisher.initials	UPM
dc.subject	síntese de fala
dc.subject	línguas de poucos recursos
dc.subject	preservação linguística
dc.subject	inclusão tecnológica
dc.subject	diversidade cultural
dc.title	Modelo de síntese de fala para línguas com recursos limitados : uma investigação da quantidade de dados para garantir inteligibilidade
dc.type	Dissertação
local.contributor.advisorLattes	http://lattes.cnpq.br/1396385111251741
local.contributor.advisorOrcid	https://orcid.org/0000-0002-8671-3102
local.contributor.authorLattes	http://lattes.cnpq.br/7166862850197293
local.contributor.board1	Martins, Valéria Farinazzo
local.contributor.board1Lattes	http://lattes.cnpq.br/9004497626504668
local.contributor.board1Orcid	https://orcid.org/0000-0002-5058-6017
local.contributor.board2	Candido Junior, Arnaldo
local.contributor.board2Lattes	http://lattes.cnpq.br/8769928331729891
local.contributor.board2Orcid	https://orcid.org/0000-0002-5647-0891
local.contributor.coadvisor	Pinhanez, Claudio Santos
local.contributor.coadvisorLattes	http://lattes.cnpq.br/5774595361715876
local.description.abstracten	In this master’s dissertation, an investigation was conducted to develop a model speech synthesis for low-resource languages, to address technological exclusion and the lack of documentation faced by these communities linguistic. An accessible and scalable model was proposed, designed to operate in low-infrastructure environments adaptable by indigenous communities, with a view to the preservation and revitalization of their languages. The research was based on the use of open-source tools, such as the Coqui TTS platform, and in the computational environment Google Colab Pro, which enabled the execution of the experiments even under restricted conditions. The training data were scaled in different volumes, ranging from 30 minutes to 6 hours of recordings, with the aim of evaluating the influence of the amount of data on the intelligibility of the model. The methodology was improved by the conversion of text into phonemes, carried out using library espeak, which allowed overcoming limitations observed in the initial appro ach based on the use of characters. It was validated that the use of phonemes provided a more effective representation of the phonetic characteristics of the target languages, resulting in significant improvements in the quality of speech synthesis. Additionally, model validation was performed in limited computational contexts, confirming its prac tical viability and its scalability to other low-resource languages. The results obtained demonstrated that the proposed approach is effective in democratization from speech synthesis technology, by offering a replicable and accessible solution for marginalized linguistic communities. The social and technological relevance that the project seeks was highlighted, by integrating innovation, simplicity, and effectiveness in addressing linguistic exclusion, establishing a benchmark for future research and applications in the field of cultural preservation. Thus, the project provides a methodological basis, through a notebook to expand similar initiatives to other endangered languages, reinforcing their impact on linguistic and cultural diversity.
local.keywords	speech synthesis
local.keywords	low-resource languages
local.keywords	linguistic preservation
local.keywords	technological inclusion
local.keywords	cultural diversity
local.publisher.department	Faculdade de Computação e Informática (FCI)
local.publisher.program	Computação Aplicada
local.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: LARISSA SANTONI SILVA - TCM - VERSÃO FINAL - protegido.pdf
Tamanho:: 1.78 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.22 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Computação Aplicada (Mestrado Profissional) - Dissertações - FCI Higienópolis