Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência
Carregando...
Tipo
Dissertação
Data de publicação
2022-08-19
Periódico
Citações (Scopus)
Autores
Almiñana, Cesar Cavini
Orientador
Silva, Leandro Augusto da
Título da Revista
ISSN da Revista
Título de Volume
Membros da banca
Vartanian, Pedro Raffy
Sassi, Renato José
Sassi, Renato José
Programa
Engenharia Elétrica e Computação
Resumo
“Seria possível ganhar dinheiro, a todo minuto, comprando e vendendo ações na
Bolsa?”. À primeira vista, este questionamento envolve diretamente o problema
de predição dos preços de uma determinada ação – e que tem sido objeto de
estudo, aprofundamento e evolução nas últimas décadas – buscando alcançar
realizações financeiras positivas e relevantes, envolvendo o menor risco de
operação possível. O uso de modelos de aprendizado por reforço
(Reinforcement Learning, ou RL) aliados ao conceito de processos decisórios de
Markov (Markov Decision Process, MDP), elimina a necessidade da previsão de
preços ou valores específicos, otimiza e automatiza a tomada de decisões. Por
sua vez, estratégias de compra e venda de ações em alta frequência (high
frequency trading, ou HFT) permitem a redução dos riscos de operação,
beneficiando-se de pequenas variações de preço para realização de pequenos
lucros que, multiplicados por um alto volume diário, permitem acumular lucros
relevantes. Este estudo busca validar, portanto, se o uso combinados de técnicas
de RL, aliadas ao conceito de HFT e a execução automática de operações, são
capazes de resultar em lucros múltiplas vezes ao longo do dia. Deste modo,
foram desenvolvidas e testadas diferentes configurações de modelos para ações
da bolsa brasileira e, a partir de um ambiente simulado, foram avaliadas segundo
acurácia e aproveitamento do potencial máximo de ganho, e comparadas
variação de cada ação no mesmo período (benchmark). Com isso, foi possível
provar que as técnicas utilizadas permitem descrever o ambiente de compra e
venda de ações em detalhe e, mesmo com a alta incidência de impostos sobre
cada operação, apresentaram resultados bastante positivos para 81,25% das
ações avaliadas, permitindo contabilizar ganhos relevantes (aproximadamente
+480%), que ultrapassam com folga o benchmark, validando assim o modelo de
alta frequência e risco controlado.
Descrição
Palavras-chave
reinforcement learning , Markov decision process , compra e venda de ações , high frequency trading