Skip to content

mpaulazamin/tcc-models-rllib

Repository files navigation

Instalação

Siga estas instruções: https://github.com/ray-project/ray/tree/master/rllib#installation-and-setup.

Depois, instale o pacote tensorflow_probability: https://github.com/tensorflow/probability/releases.

pip install tensorflow-probability==0.19.0

Integração com Tensorboard

Siga estas instruções: https://stackoverflow.com/questions/45095820/tensorboard-command-not-found.

Execute o seguinte comando:

pip show tensorflow

Entre no local onde o tensorflow está instalado:

cd C:\users\maria\appdata\roaming\python\python38\site-packages

Entre no folder do tensorboard:

cd tensorboard

Execute o seguinte comando:

python main.py --logdir "C:\users\maria\ray_results\folder_experiment"

Sanity check

Treinando o sistema com o ambiente customizado neste script, obtém-se o resultado abaixo, que reproduz o resultado encontrado no notebook do professor.

check

TO-DO

  • Separar gráficos em ações e estados
  • Treinar com diferentes temperaturas ambientes

Observações

  • Entender qual abordagem controla melhor o sistema: o agente altera diretamente os setpoints, ou ele otimiza os setpoins. Para isso, treinar as duas abordagens somente com o IQB como recompensa. De acordo com os modelos treinados, é possível perceber que o agente controla melhor o sistema no papel de otimizador de setpoints;
  • O sistema com o agente otimizando o split-range já realiza uma otimização de custos;
  • Algumas opções de experimentos considerando os seguintes sistemas: 1) sistema com controle de nível de tanque e controle do boiler; 2) sistema com controle de nível de tanque, controle do boiler e malha cascata; 3) sistema com controle de nível de tanque, controle do boiler, malha cascata e split-range:
    • Fixar os custos e treinar os sistemas 1 e 2 com temperaturas ambiente diferentes (dia frio, ameno e quente). Entender qual terá um melhor controle do sistema.
    • Fixar os custos e treinar os sistemas 2 e 3 com temperaturas ambiente diferentes (dia frio, ameno e quente). Entender se o sistema 2 consegue chegar em custos similares da energia elétrica que o sistema 3. Incluir custo do gás e água na recompensa?
    • Fixar os custos e treinar os sistemas 1, 2 e 3 com temperaturas ambiente diferentes (dia frio, ameno e quente).
    • Fixar os custos e treinar somente o sistema 2 com temperaturas ambiente diferentes (dia frio, ameno e quente). Comparar os resultados com o sistema 2 apenas com o IQB na recompensa, mas também treinado com diferentes temperaturas ambiente.
  • Sistema multiagente com custos variando poderia estar nos próximos passos da conclusão.

Atualização: 02/04/2023

  • Entender qual é a melhor abordagem para que o agente controle o sistema: otimizando os setpoints ou operando diretamente as válvulas. Utilizar somente IQB como recompensa. Rodar 1 agente de cada com Tinf=25 é o suficiente para tirar essa conclusão, ou preciso rodar com outras temperaturas ambientes?
  • A partir da melhor abordagem, entender se o agente consegue otimizar os custos: treinar o sistema com três temperaturas ambientes diferentes (15, 20 e 25), e incluir os custos na recompensa.

Atualização: 05/04/2023

  • Treinar o agente ao mesmo tempo com temperaturas ambientes diferentes (elas são selecionadas no começo do episódio) e com custos diferentes (selecionados no começo do episódio). Tentar fazer o mesmo mas com diversos agentes (cada agente controla 1 temperatura e 1 custo).
  • Fazer isso com o agente atuando como otimizador versus o agente atuando como operador.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors