Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

Almiñana, Cesar Cavini

Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

Arquivos

CESAR CAVINI ALMINANA - protegido.pdf(4.89 MB)

Tipo

Dissertação

Data de publicação

2022-08-19

Autores

Almiñana, Cesar Cavini

Orientador

Silva, Leandro Augusto da

Membros da banca

Vartanian, Pedro Raffy
Sassi, Renato José

Programa

Engenharia Elétrica e Computação

Resumo

“Seria possível ganhar dinheiro, a todo minuto, comprando e vendendo ações na Bolsa?”. À primeira vista, este questionamento envolve diretamente o problema de predição dos preços de uma determinada ação – e que tem sido objeto de estudo, aprofundamento e evolução nas últimas décadas – buscando alcançar realizações financeiras positivas e relevantes, envolvendo o menor risco de operação possível. O uso de modelos de aprendizado por reforço (Reinforcement Learning, ou RL) aliados ao conceito de processos decisórios de Markov (Markov Decision Process, MDP), elimina a necessidade da previsão de preços ou valores específicos, otimiza e automatiza a tomada de decisões. Por sua vez, estratégias de compra e venda de ações em alta frequência (high frequency trading, ou HFT) permitem a redução dos riscos de operação, beneficiando-se de pequenas variações de preço para realização de pequenos lucros que, multiplicados por um alto volume diário, permitem acumular lucros relevantes. Este estudo busca validar, portanto, se o uso combinados de técnicas de RL, aliadas ao conceito de HFT e a execução automática de operações, são capazes de resultar em lucros múltiplas vezes ao longo do dia. Deste modo, foram desenvolvidas e testadas diferentes configurações de modelos para ações da bolsa brasileira e, a partir de um ambiente simulado, foram avaliadas segundo acurácia e aproveitamento do potencial máximo de ganho, e comparadas variação de cada ação no mesmo período (benchmark). Com isso, foi possível provar que as técnicas utilizadas permitem descrever o ambiente de compra e venda de ações em detalhe e, mesmo com a alta incidência de impostos sobre cada operação, apresentaram resultados bastante positivos para 81,25% das ações avaliadas, permitindo contabilizar ganhos relevantes (aproximadamente +480%), que ultrapassam com folga o benchmark, validando assim o modelo de alta frequência e risco controlado.

Palavras-chave

reinforcement learning , Markov decision process , compra e venda de ações , high frequency trading

URI

https://dspace.mackenzie.br/handle/10899/32538

Coleções

Engenharia Elétrica e Computação - Dissertações - EE Higienópolis

Página do item completo