bitrl_cuberl_docs/epsilon__greedy__policy_8h_source.html

#ifndef EPSILON_GREEDY_POLICY_H

#define EPSILON_GREEDY_POLICY_H


#include "cuberl/base/cuberl_config.h"

#include "cuberl/base/cuberl_types.h"

#include "cuberl/rl/policies/max_tabular_policy.h"

#include "cuberl/rl/policies/random_tabular_policy.h"


#ifdef USE_PYTORCH

#include "cuberl/utils/torch_adaptor.h"

#endif


#include <random>

#include <cmath>


namespace cuberl {

namespace rl {

namespace policies {


enum class EpsilonDecayOption{NONE, EXPONENTIAL, INVERSE_STEP, CONSTANT_RATE};


class EpsilonGreedyPolicy

{

public:


    typedef uint_t output_type;


    constexpr static real_t MIN_EPS = 0.01;

    constexpr static real_t MAX_EPS = 1.0;

    constexpr static real_t EPSILON_DECAY_FACTOR = 0.01;


    EpsilonGreedyPolicy(real_t eps);


    explicit EpsilonGreedyPolicy(real_t eps, uint_t seed);


    explicit EpsilonGreedyPolicy(real_t eps, uint_t seed,

                                 EpsilonDecayOption decay_op,

                                 real_t min_eps = MIN_EPS,

                                 real_t max_eps=MAX_EPS,

                                 real_t epsilon_decay = EPSILON_DECAY_FACTOR);


    template<typename MapType>

    output_type operator()(const MapType& q_map, uint_t state)const;


    template<typename VecType>

    output_type operator()(const VecType& vec)const;


    template<typename MatType>

    output_type get_action(const MatType& q_map, uint_t state_idx);


    template<typename VecTp>

    output_type get_action(const VecTp& q_map);


#ifdef USE_PYTORCH

    output_type operator()(const torch_tensor_t& vec, torch_tensor_value_type<real_t>)const;

    output_type operator()(const torch_tensor_t& vec, torch_tensor_value_type<float_t>)const;

    output_type operator()(const torch_tensor_t& vec, torch_tensor_value_type<int_t>)const;

    output_type operator()(const torch_tensor_t& vec, torch_tensor_value_type<lint_t>)const;

#endif


    void on_episode(uint_t episode_idx)noexcept;


    void reset()noexcept{eps_ = eps_init_;}


    real_t eps_value()const noexcept{return eps_;}


    void set_eps_value(real_t eps);


    EpsilonDecayOption decay_option()const noexcept{return decay_op_;}


private:


    real_t eps_init_;

    real_t eps_;

    real_t min_eps_;

    real_t max_eps_;

    real_t epsilon_decay_;

    EpsilonDecayOption decay_op_;


    mutable std::mt19937 generator_;


    // how to select the action

    RandomTabularPolicy random_policy_;

    MaxTabularPolicy max_policy_;

};


inline


EpsilonGreedyPolicy::EpsilonGreedyPolicy(real_t eps, uint_t seed, EpsilonDecayOption decay_op,

                                         real_t min_eps, real_t max_eps, real_t epsilon_decay)

:

eps_init_(eps),

eps_(eps),

min_eps_(min_eps),

max_eps_(max_eps),

epsilon_decay_(epsilon_decay),

decay_op_(decay_op),

generator_(seed),

random_policy_(seed),

max_policy_()

{}


inline


EpsilonGreedyPolicy::EpsilonGreedyPolicy(real_t eps)

    :

      eps_init_(eps),

      eps_(eps),

      min_eps_(eps),

      max_eps_(eps),

      epsilon_decay_(eps),

      decay_op_(EpsilonDecayOption::NONE),

      random_policy_(),

      max_policy_()

{}


inline


EpsilonGreedyPolicy::EpsilonGreedyPolicy(real_t eps, uint_t seed)

    :

    EpsilonGreedyPolicy(eps, seed, EpsilonDecayOption::NONE,

                        eps, eps, eps)

{}


template<typename VecType>

EpsilonGreedyPolicy::output_type


EpsilonGreedyPolicy::operator()(const VecType& vec)const{


    // generate a number in [0, 1]

    std::uniform_real_distribution<> real_dist_(0.0, 1.0);


    if(real_dist_(generator_) > eps_){

        // select greedy action with probability 1 - epsilon

        return max_policy_.get_action(vec);

    }


    // else select a random action

    return random_policy_(vec);

}


template<typename VecTp>

EpsilonGreedyPolicy::output_type


EpsilonGreedyPolicy::get_action(const VecTp& vec){

    // generate a number in [0, 1]

    std::uniform_real_distribution<> real_dist_(0.0, 1.0);


    if(real_dist_(generator_) > eps_){

        // select greedy action with probability 1 - epsilon

        return max_policy_.get_action(vec);

    }


    // else select a random action

    return random_policy_(vec);

}


}

}

}


#endif // EPSILON_GREEDY_POLICY_H

cuberl::rl::policies::EpsilonGreedyPolicy
The EpsilonGreedyPolicy class.
Definition epsilon_greedy_policy.h:30

cuberl::rl::policies::EpsilonGreedyPolicy::EpsilonGreedyPolicy
EpsilonGreedyPolicy(real_t eps)
Constructor. Creates an epsilon-greedy tabular policy.
Definition epsilon_greedy_policy.h:160

cuberl::rl::policies::EpsilonGreedyPolicy::reset
void reset() noexcept
Reset the policy.
Definition epsilon_greedy_policy.h:106

cuberl::rl::policies::EpsilonGreedyPolicy::MIN_EPS
static constexpr real_t MIN_EPS
Definition epsilon_greedy_policy.h:39

cuberl::rl::policies::EpsilonGreedyPolicy::decay_option
EpsilonDecayOption decay_option() const noexcept
Returns the decay option.
Definition epsilon_greedy_policy.h:122

cuberl::rl::policies::EpsilonGreedyPolicy::eps_value
real_t eps_value() const noexcept
Returns the value of the epsilon.
Definition epsilon_greedy_policy.h:111

cuberl::rl::policies::EpsilonGreedyPolicy::MAX_EPS
static constexpr real_t MAX_EPS
Definition epsilon_greedy_policy.h:40

cuberl::rl::policies::EpsilonGreedyPolicy::on_episode
void on_episode(uint_t episode_idx) noexcept
any actions the policy should perform on the given episode index

cuberl::rl::policies::EpsilonGreedyPolicy::EPSILON_DECAY_FACTOR
static constexpr real_t EPSILON_DECAY_FACTOR
Definition epsilon_greedy_policy.h:41

cuberl::rl::policies::EpsilonGreedyPolicy::get_action
output_type get_action(const MatType &q_map, uint_t state_idx)
get_action. Given a

cuberl::rl::policies::EpsilonGreedyPolicy::output_type
uint_t output_type
The type returned when calling this->operator()
Definition epsilon_greedy_policy.h:37

cuberl::rl::policies::EpsilonGreedyPolicy::operator()
output_type operator()(const MapType &q_map, uint_t state) const
operator() Select action for the given state

cuberl::rl::policies::EpsilonGreedyPolicy::set_eps_value
void set_eps_value(real_t eps)
Set the epsilon value.

cuberl::rl::policies::MaxTabularPolicy
class MaxTabularPolicy
Definition max_tabular_policy.h:30

cuberl::rl::policies::MaxTabularPolicy::get_action
static output_type get_action(const MatType &q_map, uint_t state_idx)
get_action. Given a

cuberl::rl::policies::RandomTabularPolicy
class RandomTabularPolicy
Definition random_tabular_policy.h:23

cuberl_types.h

max_tabular_policy.h

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

cuberl::rl::policies::EpsilonDecayOption
EpsilonDecayOption
The EpsilonDecayOption enum. Enumerate various decaying options.
Definition epsilon_greedy_policy.h:24

cuberl::rl::policies::EpsilonDecayOption::CONSTANT_RATE
@ CONSTANT_RATE

cuberl::rl::policies::EpsilonDecayOption::NONE
@ NONE

cuberl::rl::policies::EpsilonDecayOption::EXPONENTIAL
@ EXPONENTIAL

cuberl::rl::policies::EpsilonDecayOption::INVERSE_STEP
@ INVERSE_STEP

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

random_tabular_policy.h

torch_adaptor.h