bitrl_cuberl_docs/max__tabular__policy_8h_source.html

#ifndef MAX_TABULAR_POLICY_H

#define MAX_TABULAR_POLICY_H


#include "cuberl/base/cubeai_config.h"

#include "cuberl/base/cuberl_types.h"

#include "cuberl/rl/algorithms/utils.h"

#include "cuberl/maths/vector_math.h"


#ifdef USE_PYTORCH

#include <torch/torch.h>

#endif


#include <type_traits>

#include <vector>

#include <string>

#include <iostream>


namespace cuberl {

namespace rl {

namespace policies {


struct MaxTabularPolicyBuilder;


class MaxTabularPolicy

{

public:


    typedef uint_t output_type;

    typedef uint_t state_type;

    typedef uint_t action_type;


    template<typename MatType>

    static output_type get_action(const MatType& q_map, uint_t state_idx);


    template<typename VecTp>

    static output_type get_action(const VecTp& q_map);


#ifdef USE_PYTORCH

    static output_type get_action(const torch_tensor_t& vec);

#endif


    friend struct MaxTabularPolicyBuilder;


    MaxTabularPolicy()=default;


    void on_episode(uint_t)noexcept{}


    void reset()noexcept{state_action_map_.clear();}


    action_type on_state(state_type s)const{return state_action_map_[s];}


    void save(const std::string& filename)const;


private:


        std::vector<uint_t> state_action_map_;

};


#ifdef USE_PYTORCH

inline

uint_t

MaxTabularPolicy::get_action(const torch_tensor_t& vec){

    return torch::argmax(vec).item<uint_t>();

}

#endif


template<typename VecTp>

MaxTabularPolicy::action_type


MaxTabularPolicy::get_action(const VecTp& vec){


    return std::distance(vec.begin(),

                         std::max_element(vec.begin(),

                                          vec.end()));


}


struct MaxTabularPolicyBuilder

{


    template<typename EnvType>

    void build_from_state_function(const EnvType& env,

                                   const DynVec<real_t>& v,

                                   real_t gamma,

                                   MaxTabularPolicy& policy);


    void build_from_state_action_function(const DynMat<real_t>& q,

                                          MaxTabularPolicy& policy);

};


template<typename EnvType>

void


MaxTabularPolicyBuilder::build_from_state_function(const EnvType& env,

                                                   const DynVec<real_t>& v,

                                                   real_t gamma,

                                                   MaxTabularPolicy& policy){


    static_assert(std::is_integral_v<typename EnvType::state_type>,

                  "state type must be integral");

    static_assert(std::is_integral_v<typename EnvType::action_type>,

                  "action type must be integral");


    typedef typename EnvType::action_type action_type;

    policy.state_action_map_.clear();

    policy.state_action_map_.resize(env.n_states());


    for(uint_t s=0; s<env.n_states(); ++s){


        auto state_vals = cuberl::rl::algos::state_actions_from_v(env, v,

                                                                  gamma, s);


        action_type action = policy.get_action(state_vals);

        policy.state_action_map_[s] = action;

    }


}


}

}

}


#endif // MAX_TABULAR_POLICY_H

cuberl::rl::policies::MaxTabularPolicy
class MaxTabularPolicy
Definition max_tabular_policy.h:30

cuberl::rl::policies::MaxTabularPolicy::reset
void reset() noexcept
Reset the policy.
Definition max_tabular_policy.h:83

cuberl::rl::policies::MaxTabularPolicy::action_type
uint_t action_type
Definition max_tabular_policy.h:38

cuberl::rl::policies::MaxTabularPolicy::on_episode
void on_episode(uint_t) noexcept
any actions the policy should perform on the given episode index
Definition max_tabular_policy.h:78

cuberl::rl::policies::MaxTabularPolicy::MaxTabularPolicy
MaxTabularPolicy()=default
Constructor.

cuberl::rl::policies::MaxTabularPolicy::save
void save(const std::string &filename) const
Save the state -> action map in a CSV file;.

cuberl::rl::policies::MaxTabularPolicy::output_type
uint_t output_type
The output type of operator()
Definition max_tabular_policy.h:36

cuberl::rl::policies::MaxTabularPolicy::get_action
static output_type get_action(const MatType &q_map, uint_t state_idx)
get_action. Given a

cuberl::rl::policies::MaxTabularPolicy::state_type
uint_t state_type
Definition max_tabular_policy.h:37

cuberl::rl::policies::MaxTabularPolicy::get_action
static output_type get_action(const VecTp &q_map)
get_action. Given a vector always returns the position of the maximum occuring element....

cuberl::rl::policies::MaxTabularPolicy::on_state
action_type on_state(state_type s) const
Get the action from the given state.
Definition max_tabular_policy.h:88

cuberl_types.h

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::DynVec
Eigen::RowVectorX< T > DynVec
Dynamically sized row vector.
Definition bitrl_types.h:74

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

bitrl::DynMat
Eigen::MatrixX< T > DynMat
Dynamically sized matrix to use around the library.
Definition bitrl_types.h:49

cuberl::rl::algos::state_actions_from_v
auto state_actions_from_v(const WorldTp &env, const DynVec< real_t > &v, real_t gamma, uint_t state) -> DynVec< real_t >
Given the state index returns the list of actions under the provided value functions.
Definition utils.h:23

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

cuberl::rl::policies::MaxTabularPolicyBuilder
Definition max_tabular_policy.h:125

cuberl::rl::policies::MaxTabularPolicyBuilder::build_from_state_action_function
void build_from_state_action_function(const DynMat< real_t > &q, MaxTabularPolicy &policy)

cuberl::rl::policies::MaxTabularPolicyBuilder::build_from_state_function
void build_from_state_function(const EnvType &env, const DynVec< real_t > &v, real_t gamma, MaxTabularPolicy &policy)
Definition max_tabular_policy.h:139

utils.h

vector_math.h