bitrl_cuberl_docs/reinforce__config_8h_source.html

#ifndef REINFORCE_CONFIG_H

#define REINFORCE_CONFIG_H


#include "cuberl/base/cuberl_types.h"

#include "bitrl/bitrl_consts.h"

#include "cuberl/utils/train_enum_type.h"


#include <ostream>

#include <string>


namespace cuberl {

namespace rl {

namespace algos {

namespace pg {


enum class BaselineEnumType { NONE=-1, CONSTANT=0, MEAN=1, STANDARDIZE=2};


struct ReinforceConfig

{

    bool normalize_rewards{false};


    cuberl::utils::TrainEnumType train_type{cuberl::utils::TrainEnumType::BATCH};


    BaselineEnumType baseline_type{BaselineEnumType::NONE};


    DeviceType device_type;


    uint_t n_episodes;


    uint_t max_itrs_per_episode;


    real_t gamma;


    real_t baseline_constant{0.0};


    real_t eps{bitrl::consts::TOLERANCE};


    std::ostream& print(std::ostream& out)const;


    void load_from_json(const std::string& filename);

};


inline


std::ostream& operator<<(std::ostream& out, ReinforceConfig opts){

    return opts.print(out);

}


}

}

}

}


#endif

bitrl_consts.h

cuberl_types.h

bitrl::consts::TOLERANCE
const real_t TOLERANCE
Tolerance used around the library.
Definition bitrl_consts.h:31

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

bitrl::DeviceType
DeviceType
Enumeration of various device types.
Definition bitrl_types.h:159

cuberl::rl::algos::pg::operator<<
std::ostream & operator<<(std::ostream &out, const A2CConfig &opts)
Definition a2c_config.h:115

cuberl::rl::algos::pg::BaselineEnumType
BaselineEnumType
Enumeration of the baseline types supported.
Definition reinforce_config.h:19

cuberl::rl::algos::pg::BaselineEnumType::STANDARDIZE
@ STANDARDIZE

cuberl::rl::algos::pg::BaselineEnumType::MEAN
@ MEAN

cuberl::rl::algos::pg::BaselineEnumType::CONSTANT
@ CONSTANT

cuberl::rl::algos::pg::BaselineEnumType::NONE
@ NONE

cuberl::utils::TrainEnumType
TrainEnumType
Enumeration of train type.
Definition train_enum_type.h:14

cuberl::utils::TrainEnumType::BATCH
@ BATCH

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

cuberl::rl::algos::pg::ReinforceConfig
The ReinforceOpts struct. Holds various configuration options for the Reinforce algorithm.
Definition reinforce_config.h:28

cuberl::rl::algos::pg::ReinforceConfig::baseline_constant
real_t baseline_constant
The constant to use when baseline_type = BaselineEnumType::CONSTANT.
Definition reinforce_config.h:65

cuberl::rl::algos::pg::ReinforceConfig::gamma
real_t gamma
The discount factor.
Definition reinforce_config.h:60

cuberl::rl::algos::pg::ReinforceConfig::normalize_rewards
bool normalize_rewards
Definition reinforce_config.h:29

cuberl::rl::algos::pg::ReinforceConfig::eps
real_t eps
Small constant to use as tolerance Used when baseline_type = BaselineEnumType::STANDARDIZE.
Definition reinforce_config.h:71

cuberl::rl::algos::pg::ReinforceConfig::n_episodes
uint_t n_episodes
The number of episodes.
Definition reinforce_config.h:49

cuberl::rl::algos::pg::ReinforceConfig::print
std::ostream & print(std::ostream &out) const
print

cuberl::rl::algos::pg::ReinforceConfig::load_from_json
void load_from_json(const std::string &filename)
Load the configuration from the given json file.

cuberl::rl::algos::pg::ReinforceConfig::max_itrs_per_episode
uint_t max_itrs_per_episode
Max number of iterations per episode.
Definition reinforce_config.h:55

cuberl::rl::algos::pg::ReinforceConfig::device_type
DeviceType device_type
The device type that PyTorch calculations take place.
Definition reinforce_config.h:44

cuberl::rl::algos::pg::ReinforceConfig::train_type
cuberl::utils::TrainEnumType train_type
How to train the algorithm.
Definition reinforce_config.h:34

cuberl::rl::algos::pg::ReinforceConfig::baseline_type
BaselineEnumType baseline_type
The baseline to use.
Definition reinforce_config.h:39

train_enum_type.h