bitrl_cuberl_docs/rl__mixins_8h_source.html

#ifndef RL_MIXINS_H

#define RL_MIXINS_H

#include "cuberl/base/cubeai_config.h"

#include "cuberl/base/cuberl_types.h"

#include "cuberl/rl/epsilon_decay_options.h"


#ifdef CUBERL_DEBUG

#include <cassert>

#endif


#include <map>

#include <tuple>

#include <random>


namespace cuberl::rl{


namespace  {


template<typename StateTp>

const DynVec<real_t>&

get_table_values_(const std::map<StateTp,DynVec<real_t>>& table, const StateTp& state ){


    auto itr = table.find(state);

#ifdef CUBEAI_DEBUG

    if(itr == table.end()){

        assert(false && "Invalid state given");

    }

#endif


    return itr->second;


}


template<typename StateTp>

DynVec<real_t>&

get_table_values_(std::map<StateTp,DynVec<real_t>>& table, const StateTp& state ){


    auto itr = table.find(state);

#ifdef CUBERL_DEBUG

    if(itr == table.end()){

        assert(false && "Invalid state given");

    }

#endif


    return itr->second;


}


}


uint_t max_action(const DynMat<real_t>& qtable, uint_t state, uint_t n_actions);


struct with_decay_epsilon_option_mixin

{

    real_t eps_init;

    real_t eps;

    real_t min_eps;

    real_t max_eps;

    real_t epsilon_decay;

    uint_t n_actions;

    uint_t seed;

    EpsilonDecayOptionType decay_op;


    real_t decay_eps(uint_t episode_index);


    template<typename VectorType>

    uint_t choose_action_index(const VectorType& values)const;

};


template<typename VectorType>

uint_t


with_decay_epsilon_option_mixin::choose_action_index(const VectorType& values)const{


    std::mt19937 gen(this->with_decay_epsilon_option_mixin::seed);


    // generate a number in [0, 1]

    std::uniform_real_distribution<> real_dist_(0.0, 1.0);


    if(real_dist_(gen) > this->with_decay_epsilon_option_mixin::eps){

        // select greedy action with probability 1 - epsilon

        return arg_max(values);

    }


    std::uniform_int_distribution<> distrib_(0,  this->with_decay_epsilon_option_mixin::n_actions - 1);

    return distrib_(gen);


}


struct with_q_table_mixin

{

    typedef uint_t state_type;

    typedef uint_t action_type;

    typedef real_t value_type;


    DynMat<value_type> q_table;


    void initialize(state_type n_states, action_type n_actions, real_t init_value);

};


template<typename TableTp>

struct with_double_q_table_mixin;


template<>


struct with_double_q_table_mixin< DynMat<real_t> >

{

    typedef uint_t index_type;

    typedef uint_t state_type;

    typedef uint_t action_type;

    typedef real_t value_type ;


    DynMat<value_type> q_table_1;


    DynMat<value_type> q_table_2;


    void initialize(const std::vector<index_type>& indices, action_type n_actions, real_t init_value);


    template<int index>

    value_type get(const state_type& state, const action_type action)const;


    template<int index>

    void set(const state_type& state, const action_type action, const value_type value);

};


template<>


with_double_q_table_mixin< DynMat<real_t>>::value_type

with_double_q_table_mixin< DynMat<real_t>>::get<1>(const state_type& state, const action_type action)const{

    return q_table_1(state, action);

}


template<>


with_double_q_table_mixin< DynMat<real_t>>::value_type

with_double_q_table_mixin< DynMat<real_t>>::get<2>( const state_type& state,

                                                    const action_type action)const{

    return q_table_2(state, action);

}


template<>


void

with_double_q_table_mixin< DynMat<real_t>>::set<1>( const state_type& state,

                                                    const action_type action,

                                                    const value_type value){

    q_table_1(state, action) = value;

}


template<>


void

with_double_q_table_mixin< DynMat<real_t>>::set<2>( const state_type& state,

                                                    const action_type action,

                                                    const value_type value){

    q_table_2(state, action) = value;

}


template<typename KeyTp>


struct with_double_q_table_mixin<std::map<KeyTp, DynVec<real_t>>>

{


    typedef KeyTp index_type;

    typedef KeyTp state_type;

    typedef uint_t action_type;

    typedef real_t value_type ;


    std::map<KeyTp, DynVec<real_t>> q_table_1;


    std::map<KeyTp, DynVec<real_t>> q_table_2;


    void initialize(const std::vector<index_type>& indices, action_type n_actions, real_t init_value);


    template<int index>

    value_type get(const state_type& state, const action_type action)const;


    template<int index>

    void set(const state_type& state, const action_type action, const value_type value);


};


template<typename KeyTp>

void


with_double_q_table_mixin<std::map<KeyTp, DynVec<real_t>>>::initialize( const std::vector<index_type>& indices,

                                                                        action_type n_actions,

                                                                        real_t init_value){


    DynVec<real_t> init_vals(n_actions, init_value);


    for(uint_t i=0; i< indices.size(); ++i){


        q_table_1[indices[i]] = init_vals;

        q_table_2[indices[i]] = init_vals;

    }

}


template<typename KeyTp>

template<int index>

typename with_double_q_table_mixin<std::map<KeyTp, DynVec<real_t>>>::value_type


with_double_q_table_mixin<std::map<KeyTp, DynVec<real_t>>>::get(const state_type& state, const action_type action)const{


    static_assert (index == 1 || index == 2, "Invalid index for template parameter");

    if(index == 1){

        return get_table_values_(q_table_1, state)[action];

    }


    return get_table_values_(q_table_2, state)[action];


}


template<typename KeyTp>

template<int index>

void


with_double_q_table_mixin<std::map<KeyTp, DynVec<real_t>>>::set(const state_type& state,

                                                                const action_type action,

                                                                const value_type value){


    static_assert (index == 1 || index == 2, "Invalid index for template parameter");


    if(index == 1){

        auto& vals1 = get_table_values_(q_table_1, state);

        vals1[action] = value;

    }


    auto& vals2 = get_table_values_(q_table_2, state);

    vals2[action] = value;

}


struct with_double_q_table_max_action_mixin

{


    template<typename TableTp, typename StateTp>

    static uint_t max_action(const TableTp& q1_table, const TableTp& q2_table,

                             const StateTp& state, uint_t n_actions);


    template<typename TableTp, typename StateTp>

    static uint_t max_action(const TableTp& q1_table,  const StateTp& state, uint_t n_actions);


};


template<typename TableTp, typename StateTp>

uint_t


with_double_q_table_max_action_mixin::max_action(const TableTp& q1_table, const TableTp& q2_table,

                                                 const StateTp& state, uint_t /*n_actions*/){


   const auto& vals1 = get_table_values_(q1_table, state);

   const auto& vals2 = get_table_values_(q2_table, state);

   auto sum   = vals1 + vals2;

   return 1; //blaze::argmax(sum);


}


template<typename TableTp, typename StateTp>

uint_t


with_double_q_table_max_action_mixin::max_action(const TableTp& q_table, const StateTp& state, uint_t /*n_actions*/){


   const auto& vals = get_table_values_(q_table, state);

   return 1; //blaze::argmax(vals);


}


}


#endif // RL_MIXINS_H

cuberl_types.h

epsilon_decay_options.h

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::DynVec
Eigen::RowVectorX< T > DynVec
Dynamically sized row vector.
Definition bitrl_types.h:74

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

bitrl::DynMat
Eigen::MatrixX< T > DynMat
Dynamically sized matrix to use around the library.
Definition bitrl_types.h:49

cuberl::rl
Definition dummy_agent.h:8

cuberl::rl::max_action
uint_t max_action(const DynMat< real_t > &qtable, uint_t state, uint_t n_actions)
max_action

cuberl::rl::with_decay_epsilon_option_mixin
The with_decay_epsilon_option_mixin struct.
Definition rl_mixins.h:71

cuberl::rl::with_decay_epsilon_option_mixin::n_actions
uint_t n_actions
Definition rl_mixins.h:77

cuberl::rl::with_decay_epsilon_option_mixin::decay_op
EpsilonDecayOptionType decay_op
Definition rl_mixins.h:79

cuberl::rl::with_decay_epsilon_option_mixin::decay_eps
real_t decay_eps(uint_t episode_index)
decay_eps

cuberl::rl::with_decay_epsilon_option_mixin::seed
uint_t seed
Definition rl_mixins.h:78

cuberl::rl::with_decay_epsilon_option_mixin::max_eps
real_t max_eps
Definition rl_mixins.h:75

cuberl::rl::with_decay_epsilon_option_mixin::min_eps
real_t min_eps
Definition rl_mixins.h:74

cuberl::rl::with_decay_epsilon_option_mixin::eps_init
real_t eps_init
Definition rl_mixins.h:72

cuberl::rl::with_decay_epsilon_option_mixin::eps
real_t eps
Definition rl_mixins.h:73

cuberl::rl::with_decay_epsilon_option_mixin::choose_action_index
uint_t choose_action_index(const VectorType &values) const
Definition rl_mixins.h:97

cuberl::rl::with_decay_epsilon_option_mixin::epsilon_decay
real_t epsilon_decay
Definition rl_mixins.h:76

cuberl::rl::with_double_q_table_max_action_mixin
Definition rl_mixins.h:302

cuberl::rl::with_double_q_table_max_action_mixin::max_action
static uint_t max_action(const TableTp &q1_table, const TableTp &q2_table, const StateTp &state, uint_t n_actions)
Returns the max action by averaging the state values from the two tables.
Definition rl_mixins.h:322

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::q_table_2
DynMat< value_type > q_table_2
q_table_2
Definition rl_mixins.h:159

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::q_table_1
DynMat< value_type > q_table_1
q_table_1
Definition rl_mixins.h:154

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::initialize
void initialize(const std::vector< index_type > &indices, action_type n_actions, real_t init_value)
initialize

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::index_type
uint_t index_type
Definition rl_mixins.h:146

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::value_type
real_t value_type
Definition rl_mixins.h:149

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::set
void set(const state_type &state, const action_type action, const value_type value)

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::get
value_type get(const state_type &state, const action_type action) const

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::state_type
uint_t state_type
Definition rl_mixins.h:147

cuberl::rl::with_double_q_table_mixin< DynMat< real_t > >::action_type
uint_t action_type
Definition rl_mixins.h:148

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::action_type
uint_t action_type
Definition rl_mixins.h:217

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::get
value_type get(const state_type &state, const action_type action) const

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::state_type
KeyTp state_type
Definition rl_mixins.h:216

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::q_table_1
std::map< KeyTp, DynVec< real_t > > q_table_1
q_table_1
Definition rl_mixins.h:223

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::index_type
KeyTp index_type
Definition rl_mixins.h:215

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::q_table_2
std::map< KeyTp, DynVec< real_t > > q_table_2
q_table_2
Definition rl_mixins.h:228

cuberl::rl::with_double_q_table_mixin< std::map< KeyTp, DynVec< real_t > > >::value_type
real_t value_type
Definition rl_mixins.h:218

cuberl::rl::with_double_q_table_mixin
Definition rl_mixins.h:138

cuberl::rl::with_q_table_mixin
The WithQTableMixin struct.
Definition rl_mixins.h:118

cuberl::rl::with_q_table_mixin::initialize
void initialize(state_type n_states, action_type n_actions, real_t init_value)
initialize

cuberl::rl::with_q_table_mixin::value_type
real_t value_type
Definition rl_mixins.h:121

cuberl::rl::with_q_table_mixin::q_table
DynMat< value_type > q_table
q_table
Definition rl_mixins.h:126

cuberl::rl::with_q_table_mixin::action_type
uint_t action_type
Definition rl_mixins.h:120

cuberl::rl::with_q_table_mixin::state_type
uint_t state_type
Definition rl_mixins.h:119