bitrl_cuberl_docs/ppo__config_8h_source.html

#ifndef PPO_CONFIG_H

#define PPO_CONFIG_H


#include "cuberl/base/cuberl_types.h"

//#include "rlenvs/rlenvs_consts.h"

#include "cuberl/utils/train_enum_type.h"


#include <ostream>

#include <string>


namespace cuberl {

namespace rl {

namespace algos {

namespace pg {


//using namespace rlenvscpp::consts;


struct PPOConfig

{


    real_t gamma{0.99};


    real_t epsilon{0.01};


    bool clip_policy_grad{false};


    bool clip_critic_grad{false};


    real_t max_grad_norm_policy{1.0};


    real_t max_grad_norm_critic{1.0};


    uint_t n_episodes{100};


    uint_t max_itrs_per_episode{100};


    uint_t buffer_size{100};


    uint_t max_passes_over_batch{4};


    real_t clip_epsilon {0.5};


    bool normalize_advantages{true};


    DeviceType device_type{DeviceType::CPU};


    std::string save_model_path{""};


    std::ostream& print(std::ostream& out)const;


    void load_from_json(const std::string& filename);

};


inline


std::ostream& operator<<(std::ostream& out, const PPOConfig& opts){

    return opts.print(out);

}


} // pg

} // algos

} // rl

} // cuberl


#endif

cuberl_types.h

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

bitrl::DeviceType
DeviceType
Enumeration of various device types.
Definition bitrl_types.h:159

cuberl::rl::algos::pg::operator<<
std::ostream & operator<<(std::ostream &out, const A2CConfig &opts)
Definition a2c_config.h:115

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

cuberl::rl::algos::pg::PPOConfig
The PPOConfig struct. Configuration for PPOSolver class.
Definition ppo_config.h:23

cuberl::rl::algos::pg::PPOConfig::print
std::ostream & print(std::ostream &out) const
print

cuberl::rl::algos::pg::PPOConfig::device_type
DeviceType device_type
Definition ppo_config.h:83

cuberl::rl::algos::pg::PPOConfig::load_from_json
void load_from_json(const std::string &filename)
Load the configuration from the given json file.

cuberl::rl::algos::pg::PPOConfig::buffer_size
uint_t buffer_size
How large the experince buffer should be.
Definition ppo_config.h:68

cuberl::rl::algos::pg::PPOConfig::max_grad_norm_policy
real_t max_grad_norm_policy
The value to clip the gradient for the policy.
Definition ppo_config.h:48

cuberl::rl::algos::pg::PPOConfig::save_model_path
std::string save_model_path
Definition ppo_config.h:88

cuberl::rl::algos::pg::PPOConfig::max_itrs_per_episode
uint_t max_itrs_per_episode
Number of iterations per episode.
Definition ppo_config.h:63

cuberl::rl::algos::pg::PPOConfig::clip_critic_grad
bool clip_critic_grad
Flag indicating whether to clip the critic grad.
Definition ppo_config.h:43

cuberl::rl::algos::pg::PPOConfig::gamma
real_t gamma
Discount factor.
Definition ppo_config.h:28

cuberl::rl::algos::pg::PPOConfig::max_passes_over_batch
uint_t max_passes_over_batch
Definition ppo_config.h:70

cuberl::rl::algos::pg::PPOConfig::n_episodes
uint_t n_episodes
Number of training episodes.
Definition ppo_config.h:58

cuberl::rl::algos::pg::PPOConfig::clip_policy_grad
bool clip_policy_grad
Flag indicating whether to clip the policy grad.
Definition ppo_config.h:38

cuberl::rl::algos::pg::PPOConfig::clip_epsilon
real_t clip_epsilon
Definition ppo_config.h:73

cuberl::rl::algos::pg::PPOConfig::normalize_advantages
bool normalize_advantages
Definition ppo_config.h:78

cuberl::rl::algos::pg::PPOConfig::epsilon
real_t epsilon
The epsilon factor to use.
Definition ppo_config.h:33

cuberl::rl::algos::pg::PPOConfig::max_grad_norm_critic
real_t max_grad_norm_critic
The value to clip the gradient for the actor.
Definition ppo_config.h:53

train_enum_type.h