Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

Almiñana, Cesar Cavini

Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

dc.contributor.advisor	Silva, Leandro Augusto da
dc.contributor.author	Almiñana, Cesar Cavini
dc.date.accessioned	2023-04-28T11:29:16Z
dc.date.available	2023-04-28T11:29:16Z
dc.date.issued	2022-08-19
dc.description.abstract	“Seria possível ganhar dinheiro, a todo minuto, comprando e vendendo ações na Bolsa?”. À primeira vista, este questionamento envolve diretamente o problema de predição dos preços de uma determinada ação – e que tem sido objeto de estudo, aprofundamento e evolução nas últimas décadas – buscando alcançar realizações financeiras positivas e relevantes, envolvendo o menor risco de operação possível. O uso de modelos de aprendizado por reforço (Reinforcement Learning, ou RL) aliados ao conceito de processos decisórios de Markov (Markov Decision Process, MDP), elimina a necessidade da previsão de preços ou valores específicos, otimiza e automatiza a tomada de decisões. Por sua vez, estratégias de compra e venda de ações em alta frequência (high frequency trading, ou HFT) permitem a redução dos riscos de operação, beneficiando-se de pequenas variações de preço para realização de pequenos lucros que, multiplicados por um alto volume diário, permitem acumular lucros relevantes. Este estudo busca validar, portanto, se o uso combinados de técnicas de RL, aliadas ao conceito de HFT e a execução automática de operações, são capazes de resultar em lucros múltiplas vezes ao longo do dia. Deste modo, foram desenvolvidas e testadas diferentes configurações de modelos para ações da bolsa brasileira e, a partir de um ambiente simulado, foram avaliadas segundo acurácia e aproveitamento do potencial máximo de ganho, e comparadas variação de cada ação no mesmo período (benchmark). Com isso, foi possível provar que as técnicas utilizadas permitem descrever o ambiente de compra e venda de ações em detalhe e, mesmo com a alta incidência de impostos sobre cada operação, apresentaram resultados bastante positivos para 81,25% das ações avaliadas, permitindo contabilizar ganhos relevantes (aproximadamente +480%), que ultrapassam com folga o benchmark, validando assim o modelo de alta frequência e risco controlado.	pt_BR
dc.identifier.uri	https://dspace.mackenzie.br/handle/10899/32538
dc.language.iso	pt_BR	pt_BR
dc.language.iso	en	pt_BR
dc.publisher	Universidade Presbiteriana Mackenzie
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	reinforcement learning	pt_BR
dc.subject	Markov decision process	pt_BR
dc.subject	compra e venda de ações	pt_BR
dc.subject	high frequency trading	pt_BR
dc.title	Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência	pt_BR
dc.type	Dissertação	pt_BR
local.contributor.advisorLattes	http://lattes.cnpq.br/1396385111251741	pt_BR
local.contributor.advisorOrcid	https://orcid.org/0000-0002-8671-3102	pt_BR
local.contributor.authorLattes	http://lattes.cnpq.br/7923501721394566	pt_BR
local.contributor.board1	Vartanian, Pedro Raffy
local.contributor.board1Lattes	http://lattes.cnpq.br/1346230422542369	pt_BR
local.contributor.board1Orcid	https://orcid.org/0000-0002-1492-7128	pt_BR
local.contributor.board2	Sassi, Renato José
local.contributor.board2Lattes	http://lattes.cnpq.br/8750334661789610	pt_BR
local.contributor.board2Orcid	https://orcid.org/0000-0001-5276-4895	pt_BR
local.description.abstracten	“Is it possible to profit, every minute, buying and selling stocks?”. At first, this question directly involves the price prediction problem of a stock – that has been object of study, deepening and evolution in recent decades – seeking to achieve positive and relevant financial success, involving the lowest transaction risk possible. The use of reinforcement learning (RL) models, combined with the Markov decision process (MDP) concept, eliminates the need for forecasting specific prices, and optimizes and automates the decision making process. Still, the strategy of high frequency trading (HFT) allows risks reduction, taking benefit from small price variations while realizing small profits – which, multiplied by a high daily volume, allows to accumulate relevant profits. This study seeks to validate whether the use of RL techniques, combined to the HFT concept and automatic trading, are capable of result in profits multiple times a day. Different model configurations were developed and tested for Brazilian stocks and, using a simulated environment, measure their performance by accuracy, percentage of the maximum earning potential and, compared to the stock variation within the same period. It was possible to prove that given techniques allow to describe the stock trading environment with detail and, even considering high interest rates, showed positive results for 81,25% of all tested stocks, making possible to sum relevant profits (around +480%), exceeding the benchmarking with ease, and proving the high frequency and low risk model.	pt_BR
local.keywords	reinforcement learning	pt_BR
local.keywords	Markov decision process	pt_BR
local.keywords	stock exchange	pt_BR
local.keywords	high frequency trading	pt_BR
local.publisher.country	Brasil
local.publisher.department	Escola de Engenharia Mackenzie (EE)	pt_BR
local.publisher.initials	UPM
local.publisher.program	Engenharia Elétrica e Computação	pt_BR
local.subject.cnpq	Ciências Exatas e da Terra	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: CESAR CAVINI ALMINANA - protegido.pdf
Tamanho:: 4.89 MB
Formato:: Adobe Portable Document Format
Descrição:: Cesar Cavini Almiñana

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.95 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Engenharia Elétrica e Computação - Dissertações - EE Higienópolis