Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

dc.contributor.advisorSilva, Leandro Augusto da
dc.contributor.authorAlmiñana, Cesar Cavini
dc.date.accessioned2023-04-28T11:29:16Z
dc.date.available2023-04-28T11:29:16Z
dc.date.issued2022-08-19
dc.description.abstract“Seria possível ganhar dinheiro, a todo minuto, comprando e vendendo ações na Bolsa?”. À primeira vista, este questionamento envolve diretamente o problema de predição dos preços de uma determinada ação – e que tem sido objeto de estudo, aprofundamento e evolução nas últimas décadas – buscando alcançar realizações financeiras positivas e relevantes, envolvendo o menor risco de operação possível. O uso de modelos de aprendizado por reforço (Reinforcement Learning, ou RL) aliados ao conceito de processos decisórios de Markov (Markov Decision Process, MDP), elimina a necessidade da previsão de preços ou valores específicos, otimiza e automatiza a tomada de decisões. Por sua vez, estratégias de compra e venda de ações em alta frequência (high frequency trading, ou HFT) permitem a redução dos riscos de operação, beneficiando-se de pequenas variações de preço para realização de pequenos lucros que, multiplicados por um alto volume diário, permitem acumular lucros relevantes. Este estudo busca validar, portanto, se o uso combinados de técnicas de RL, aliadas ao conceito de HFT e a execução automática de operações, são capazes de resultar em lucros múltiplas vezes ao longo do dia. Deste modo, foram desenvolvidas e testadas diferentes configurações de modelos para ações da bolsa brasileira e, a partir de um ambiente simulado, foram avaliadas segundo acurácia e aproveitamento do potencial máximo de ganho, e comparadas variação de cada ação no mesmo período (benchmark). Com isso, foi possível provar que as técnicas utilizadas permitem descrever o ambiente de compra e venda de ações em detalhe e, mesmo com a alta incidência de impostos sobre cada operação, apresentaram resultados bastante positivos para 81,25% das ações avaliadas, permitindo contabilizar ganhos relevantes (aproximadamente +480%), que ultrapassam com folga o benchmark, validando assim o modelo de alta frequência e risco controlado.pt_BR
dc.identifier.urihttps://dspace.mackenzie.br/handle/10899/32538
dc.language.isopt_BRpt_BR
dc.language.isoenpt_BR
dc.publisherUniversidade Presbiteriana Mackenzie
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectreinforcement learningpt_BR
dc.subjectMarkov decision processpt_BR
dc.subjectcompra e venda de açõespt_BR
dc.subjecthigh frequency tradingpt_BR
dc.titleAlgoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequênciapt_BR
dc.typeDissertaçãopt_BR
local.contributor.advisorLatteshttp://lattes.cnpq.br/1396385111251741pt_BR
local.contributor.advisorOrcidhttps://orcid.org/0000-0002-8671-3102pt_BR
local.contributor.authorLatteshttp://lattes.cnpq.br/7923501721394566pt_BR
local.contributor.board1Vartanian, Pedro Raffy
local.contributor.board1Latteshttp://lattes.cnpq.br/1346230422542369pt_BR
local.contributor.board1Orcidhttps://orcid.org/0000-0002-1492-7128pt_BR
local.contributor.board2Sassi, Renato José
local.contributor.board2Latteshttp://lattes.cnpq.br/8750334661789610pt_BR
local.contributor.board2Orcidhttps://orcid.org/0000-0001-5276-4895pt_BR
local.description.abstracten“Is it possible to profit, every minute, buying and selling stocks?”. At first, this question directly involves the price prediction problem of a stock – that has been object of study, deepening and evolution in recent decades – seeking to achieve positive and relevant financial success, involving the lowest transaction risk possible. The use of reinforcement learning (RL) models, combined with the Markov decision process (MDP) concept, eliminates the need for forecasting specific prices, and optimizes and automates the decision making process. Still, the strategy of high frequency trading (HFT) allows risks reduction, taking benefit from small price variations while realizing small profits – which, multiplied by a high daily volume, allows to accumulate relevant profits. This study seeks to validate whether the use of RL techniques, combined to the HFT concept and automatic trading, are capable of result in profits multiple times a day. Different model configurations were developed and tested for Brazilian stocks and, using a simulated environment, measure their performance by accuracy, percentage of the maximum earning potential and, compared to the stock variation within the same period. It was possible to prove that given techniques allow to describe the stock trading environment with detail and, even considering high interest rates, showed positive results for 81,25% of all tested stocks, making possible to sum relevant profits (around +480%), exceeding the benchmarking with ease, and proving the high frequency and low risk model.pt_BR
local.keywordsreinforcement learningpt_BR
local.keywordsMarkov decision processpt_BR
local.keywordsstock exchangept_BR
local.keywordshigh frequency tradingpt_BR
local.publisher.countryBrasil
local.publisher.departmentEscola de Engenharia Mackenzie (EE)pt_BR
local.publisher.initialsUPM
local.publisher.programEngenharia Elétrica e Computaçãopt_BR
local.subject.cnpqCiências Exatas e da Terrapt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
CESAR CAVINI ALMINANA - protegido.pdf
Tamanho:
4.89 MB
Formato:
Adobe Portable Document Format
Descrição:
Cesar Cavini Almiñana
Licença do Pacote
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.95 KB
Formato:
Item-specific license agreed upon to submission
Descrição: