Modelo de síntese de fala para línguas com recursos limitados : uma investigação da quantidade de dados para garantir inteligibilidade
dc.contributor.advisor | Silva, Leandro Augusto da | |
dc.contributor.author | Silva, Larissa Santoni | |
dc.date.accessioned | 2025-04-24T15:33:58Z | |
dc.date.available | 2025-04-24T15:33:58Z | |
dc.date.issued | 2025-02-24 | |
dc.description.abstract | Nesta dissertação de mestrado foi conduzida uma investigação com o objetivo de desenvolver um modelo de síntese de fala para línguas com recursos limitados, com o intuito de abordar a exclusão tecnológica e a falta de documentação enfrentadas por essas comunidades linguísticas. Foi proposto um modelo acessível e escalável, projetado para operar em ambientes de baixa infraestrutura e adaptável por comunida des indígenas, com vistas à preservação e revitalização de suas línguas. A pesquisa fundamentou-se na utilização de ferramentas de código aberto, como a plataforma Coqui TTS, e no ambiente computacional Google Colab Pro, que possibilitaram a execu ção dos experimentos mesmo em condições restritas. Os dados de treinamento foram escalonados em diferentes volumes, variando de 30 minutos a 6 horas de gravações, com o objetivo de avaliar a influência da quantidade de dados sobre a inteligibilidade do modelo. A metodologia foi aprimorada pela conversão de texto em fonemas, realizada com a utilização da biblioteca espeak, o que permitiu superar limitações observadas na abordagem inicial baseada no uso de caracteres. Foi validado que o uso de fone mas proporcionou uma representação mais eficaz das características fonéticas das línguas-alvo, resultando em melhorias significativas na qualidade da síntese de fala. Adicionalmente, foram realizadas validações do modelo em contextos computacionais limitados, confirmando sua viabilidade prática e sua escalabilidade para outras línguas de poucos recursos. Os resultados obtidos evidenciaram que a abordagem proposta é eficaz na democratização da tecnologia de síntese de fala, ao oferecer uma solução replicável e acessível para comunidades linguísticas marginalizadas. Foi destacada a relevância social e tecnológica que o projeto busca, ao integrar inovação, simplicidade e eficácia no enfrentamento da exclusão linguística, estabelecendo um marco para futuras pesquisas e aplicações no campo da preservação cultural. Assim, o projeto fornece uma base metodológica, por meio de um notebook para expandir iniciativas similares para outras línguas ameaçadas de extinção, reforçando seu impacto na diversidade linguística e cultural. | |
dc.identifier.uri | https://dspace.mackenzie.br/handle/10899/40560 | |
dc.language.iso | pt_BR | |
dc.language.iso | en | |
dc.publisher | Universidade Presbiteriana Mackenzie | |
dc.publisher.country | Brasil | |
dc.publisher.initials | UPM | |
dc.subject | síntese de fala | |
dc.subject | línguas de poucos recursos | |
dc.subject | preservação linguística | |
dc.subject | inclusão tecnológica | |
dc.subject | diversidade cultural | |
dc.title | Modelo de síntese de fala para línguas com recursos limitados : uma investigação da quantidade de dados para garantir inteligibilidade | |
dc.type | Dissertação | |
local.contributor.advisorLattes | http://lattes.cnpq.br/1396385111251741 | |
local.contributor.advisorOrcid | https://orcid.org/0000-0002-8671-3102 | |
local.contributor.authorLattes | http://lattes.cnpq.br/7166862850197293 | |
local.contributor.board1 | Martins, Valéria Farinazzo | |
local.contributor.board1Lattes | http://lattes.cnpq.br/9004497626504668 | |
local.contributor.board1Orcid | https://orcid.org/0000-0002-5058-6017 | |
local.contributor.board2 | Candido Junior, Arnaldo | |
local.contributor.board2Lattes | http://lattes.cnpq.br/8769928331729891 | |
local.contributor.board2Orcid | https://orcid.org/0000-0002-5647-0891 | |
local.contributor.coadvisor | Pinhanez, Claudio Santos | |
local.contributor.coadvisorLattes | http://lattes.cnpq.br/5774595361715876 | |
local.description.abstracten | In this master’s dissertation, an investigation was conducted to develop a model speech synthesis for low-resource languages, to address technological exclusion and the lack of documentation faced by these communities linguistic. An accessible and scalable model was proposed, designed to operate in low-infrastructure environments adaptable by indigenous communities, with a view to the preservation and revitalization of their languages. The research was based on the use of open-source tools, such as the Coqui TTS platform, and in the computational environment Google Colab Pro, which enabled the execution of the experiments even under restricted conditions. The training data were scaled in different volumes, ranging from 30 minutes to 6 hours of recordings, with the aim of evaluating the influence of the amount of data on the intelligibility of the model. The methodology was improved by the conversion of text into phonemes, carried out using library espeak, which allowed overcoming limitations observed in the initial appro ach based on the use of characters. It was validated that the use of phonemes provided a more effective representation of the phonetic characteristics of the target languages, resulting in significant improvements in the quality of speech synthesis. Additionally, model validation was performed in limited computational contexts, confirming its prac tical viability and its scalability to other low-resource languages. The results obtained demonstrated that the proposed approach is effective in democratization from speech synthesis technology, by offering a replicable and accessible solution for marginalized linguistic communities. The social and technological relevance that the project seeks was highlighted, by integrating innovation, simplicity, and effectiveness in addressing linguistic exclusion, establishing a benchmark for future research and applications in the field of cultural preservation. Thus, the project provides a methodological basis, through a notebook to expand similar initiatives to other endangered languages, reinforcing their impact on linguistic and cultural diversity. | |
local.keywords | speech synthesis | |
local.keywords | low-resource languages | |
local.keywords | linguistic preservation | |
local.keywords | technological inclusion | |
local.keywords | cultural diversity | |
local.publisher.department | Faculdade de Computação e Informática (FCI) | |
local.publisher.program | Computação Aplicada | |
local.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- LARISSA SANTONI SILVA - TCM - VERSÃO FINAL - protegido.pdf
- Tamanho:
- 1.78 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 2.22 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: