Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

Carregando...
Imagem de Miniatura
Tipo
Dissertação
Data
2022-08-19
Autores
Almiñana, Cesar Cavini
Orientador
Silva, Leandro Augusto da
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Vartanian, Pedro Raffy
Sassi, Renato José
Programa
Engenharia Elétrica e Computação
Resumo
“Seria possível ganhar dinheiro, a todo minuto, comprando e vendendo ações na Bolsa?”. À primeira vista, este questionamento envolve diretamente o problema de predição dos preços de uma determinada ação – e que tem sido objeto de estudo, aprofundamento e evolução nas últimas décadas – buscando alcançar realizações financeiras positivas e relevantes, envolvendo o menor risco de operação possível. O uso de modelos de aprendizado por reforço (Reinforcement Learning, ou RL) aliados ao conceito de processos decisórios de Markov (Markov Decision Process, MDP), elimina a necessidade da previsão de preços ou valores específicos, otimiza e automatiza a tomada de decisões. Por sua vez, estratégias de compra e venda de ações em alta frequência (high frequency trading, ou HFT) permitem a redução dos riscos de operação, beneficiando-se de pequenas variações de preço para realização de pequenos lucros que, multiplicados por um alto volume diário, permitem acumular lucros relevantes. Este estudo busca validar, portanto, se o uso combinados de técnicas de RL, aliadas ao conceito de HFT e a execução automática de operações, são capazes de resultar em lucros múltiplas vezes ao longo do dia. Deste modo, foram desenvolvidas e testadas diferentes configurações de modelos para ações da bolsa brasileira e, a partir de um ambiente simulado, foram avaliadas segundo acurácia e aproveitamento do potencial máximo de ganho, e comparadas variação de cada ação no mesmo período (benchmark). Com isso, foi possível provar que as técnicas utilizadas permitem descrever o ambiente de compra e venda de ações em detalhe e, mesmo com a alta incidência de impostos sobre cada operação, apresentaram resultados bastante positivos para 81,25% das ações avaliadas, permitindo contabilizar ganhos relevantes (aproximadamente +480%), que ultrapassam com folga o benchmark, validando assim o modelo de alta frequência e risco controlado.
Descrição
Palavras-chave
reinforcement learning , Markov decision process , compra e venda de ações , high frequency trading
Citação