bitrl_cuberl_docs/random__tabular__policy_8h_source.html

#ifndef RANDOM_TABULAR_POLICY_H

#define RANDOM_TABULAR_POLICY_H


#include "cuberl/base/cuberl_types.h"

#include "cuberl/base/cuberl_config.h"

#include "cuberl/utils/torch_adaptor.h"


#ifdef USE_PYTORCH

#include <torch/torch.h>

#endif


#include <random>


namespace cuberl {

namespace rl {

namespace policies {


class RandomTabularPolicy

{


public:


    typedef uint_t output_type;


    RandomTabularPolicy();


    explicit RandomTabularPolicy(uint_t seed);


    template<typename MatType>

    output_type operator()(const MatType& q_map, uint_t state_idx)const;


#ifdef USE_PYTORCH

    output_type operator()(const torch_tensor_t& vec)const;

#endif


    template<typename VecTp>

    output_type operator()(const VecTp& vec)const;


    template<typename MatType>

    output_type get_action(const MatType& q_map, uint_t state_idx);


    template<typename VecTp>

    output_type get_action(const VecTp& q_map);


    void on_episode(uint_t)noexcept{}


    void reset()noexcept{}


private:


    //std::random_device rd_;


    mutable std::mt19937 generator_;

};


#ifdef USE_PYTORCH

inline

RandomTabularPolicy::output_type

RandomTabularPolicy::operator()(const torch_tensor_t& vec)const{


    auto vector = cuberl::utils::pytorch::TorchAdaptor::to_vector<real_t>(vec);

    //std::discrete_distribution<int> distribution(vector.begin(), vector.end());

    std::uniform_int_distribution<uint_t> distribution(0, vector.size()-1);

    return distribution(generator_);


}

#endif


template<typename VecTp>

RandomTabularPolicy::output_type


RandomTabularPolicy::operator()(const VecTp& vec)const{


    //std::discrete_distribution<int> distribution(vec.begin(), vec.end());

    std::uniform_int_distribution<uint_t> distribution(0, vec.size()-1);

    return distribution(generator_);


}


template<typename VecTp>

RandomTabularPolicy::output_type


RandomTabularPolicy::get_action(const VecTp& vec){

    std::uniform_int_distribution<uint_t> distribution(0, vec.size()-1);

    return distribution(generator_);

}


}

}

}


#endif // RANDOM_TABULAR_POLICY_H

cuberl::rl::policies::RandomTabularPolicy
class RandomTabularPolicy
Definition random_tabular_policy.h:23

cuberl::rl::policies::RandomTabularPolicy::RandomTabularPolicy
RandomTabularPolicy(uint_t seed)
Constructor Initialize with a seed.

cuberl::rl::policies::RandomTabularPolicy::RandomTabularPolicy
RandomTabularPolicy()
Constructor.

cuberl::rl::policies::RandomTabularPolicy::output_type
uint_t output_type
The type returned when calling this->operator()
Definition random_tabular_policy.h:30

cuberl::rl::policies::RandomTabularPolicy::operator()
output_type operator()(const MatType &q_map, uint_t state_idx) const
operator(). Given a

cuberl::rl::policies::RandomTabularPolicy::reset
void reset() noexcept
Reset the policy.
Definition random_tabular_policy.h:84

cuberl::rl::policies::RandomTabularPolicy::on_episode
void on_episode(uint_t) noexcept
any actions the policy should perform on the given episode index
Definition random_tabular_policy.h:79

cuberl::rl::policies::RandomTabularPolicy::get_action
output_type get_action(const MatType &q_map, uint_t state_idx)
get_action. Given a

cuberl_types.h

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

torch_adaptor.h