bitrl_cuberl_docs/policy__improvement_8h_source.html

#ifndef POLICY_IMPROVEMENT_H

#define POLICY_IMPROVEMENT_H


#include "cuberl/rl/algorithms/dp/dp_algo_base.h"

#include "cuberl/rl/algorithms/utils.h"

#include "cuberl/rl/policies/adaptors/policy_stochastic_adaptor.h"


#include <any>

#include <map>

#include <string>


namespace cuberl{

namespace rl::algos::dp

{


    template<typename EnvType, typename PolicyType>


    class PolicyImprovement: public DPSolverBase<EnvType>

    {

    public:


        typedef typename DPSolverBase<EnvType>::env_type env_type;


        typedef PolicyType policy_type;


        PolicyImprovement(uint_t action_space_size,

                          real_t gamma,

                          const DynVec<real_t>& val_func,

                          policy_type& policy);


        virtual void actions_before_training_begins(env_type& /*env*/)override{}


        virtual void actions_after_training_ends(env_type& /*env*/)override{}


        virtual void actions_before_episode_begins(env_type&, uint_t /*episode_idx*/)override{}


        virtual void actions_after_episode_ends(env_type&, uint_t /*episode_idx*/,

                                                const EpisodeInfo& /*einfo*/)override{}


        virtual EpisodeInfo on_training_episode(env_type& env, uint_t episode_idx) override;


        const policy_type& policy()const{return  policy_;}


        policy_type& policy(){return  policy_;}


        void set_value_function(const DynVec<real_t>& v){v_ = v;}


    protected:


        real_t gamma_;


        DynVec<real_t> v_;


        policy_type& policy_;


        cuberl::rl::policies::StochasticAdaptorPolicy<policy_type> policy_adaptor_;

    };


    template<typename EnvType, typename PolicyType>


    PolicyImprovement<EnvType, PolicyType>::PolicyImprovement(uint_t action_space_size,

                                                              real_t gamma, const DynVec<real_t>& val_func,

                                                              policy_type& policy)

        :

        DPSolverBase<EnvType>(),

        gamma_(gamma),

        v_(val_func),

        policy_(policy),

        policy_adaptor_(val_func.size(), action_space_size, policy)

    {}


    template<typename EnvType, typename PolicyType>

    EpisodeInfo


    PolicyImprovement<EnvType, PolicyType>::on_training_episode(env_type& env, uint_t episode_idx){


        auto start = std::chrono::steady_clock::now();


        std::map<std::string, std::any> options;


        for(uint_t s=0; s<env.n_states(); ++s){


            auto state_actions = state_actions_from_v(env, v_, gamma_, s);


            options.insert_or_assign("state", s);

            options.insert_or_assign("state_actions", std::any(state_actions));

            policy_ = policy_adaptor_(options);

        }


        auto end = std::chrono::steady_clock::now();

        std::chrono::duration<real_t> elapsed_seconds = end-start;


        EpisodeInfo info;

        info.episode_index = episode_idx;

        info.episode_iterations = env.n_states();

        info.total_time = elapsed_seconds;

        return info;

    }


}

}


#endif // POLICY_IMPROVEMENT_H


cuberl::rl::algos::dp::DPSolverBase
The DPSolverBase class.
Definition dp_algo_base.h:21

cuberl::rl::algos::dp::DPSolverBase::env_type
RLSolverBase< EnvType >::env_type env_type
The environment type the solver is using.
Definition dp_algo_base.h:27

cuberl::rl::algos::dp::PolicyImprovement
The PolicyImprovement class. PolicyImprovement is not a real algorithm in the sense that it looks for...
Definition policy_improvement.h:23

cuberl::rl::algos::dp::PolicyImprovement::policy
const policy_type & policy() const
policy
Definition policy_improvement.h:76

cuberl::rl::algos::dp::PolicyImprovement::policy_adaptor_
cuberl::rl::policies::StochasticAdaptorPolicy< policy_type > policy_adaptor_
How to adapt the policy.
Definition policy_improvement.h:110

cuberl::rl::algos::dp::PolicyImprovement::policy_
policy_type & policy_
policy_
Definition policy_improvement.h:105

cuberl::rl::algos::dp::PolicyImprovement::policy_type
PolicyType policy_type
policy_type
Definition policy_improvement.h:34

cuberl::rl::algos::dp::PolicyImprovement::actions_after_episode_ends
virtual void actions_after_episode_ends(env_type &, uint_t, const EpisodeInfo &) override
actions_after_training_episode
Definition policy_improvement.h:64

cuberl::rl::algos::dp::PolicyImprovement::PolicyImprovement
PolicyImprovement(uint_t action_space_size, real_t gamma, const DynVec< real_t > &val_func, policy_type &policy)
IterativePolicyEval.
Definition policy_improvement.h:114

cuberl::rl::algos::dp::PolicyImprovement::gamma_
real_t gamma_
gamma_
Definition policy_improvement.h:95

cuberl::rl::algos::dp::PolicyImprovement::actions_after_training_ends
virtual void actions_after_training_ends(env_type &) override
actions_after_training_ends. Actions to execute after the training iterations have finisehd
Definition policy_improvement.h:54

cuberl::rl::algos::dp::PolicyImprovement::env_type
DPSolverBase< EnvType >::env_type env_type
env_t
Definition policy_improvement.h:29

cuberl::rl::algos::dp::PolicyImprovement::actions_before_training_begins
virtual void actions_before_training_begins(env_type &) override
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...
Definition policy_improvement.h:48

cuberl::rl::algos::dp::PolicyImprovement::set_value_function
void set_value_function(const DynVec< real_t > &v)
set_value_function
Definition policy_improvement.h:88

cuberl::rl::algos::dp::PolicyImprovement::v_
DynVec< real_t > v_
v_
Definition policy_improvement.h:100

cuberl::rl::algos::dp::PolicyImprovement::actions_before_episode_begins
virtual void actions_before_episode_begins(env_type &, uint_t) override
actions_before_training_episode
Definition policy_improvement.h:59

cuberl::rl::algos::dp::PolicyImprovement::policy
policy_type & policy()
policy
Definition policy_improvement.h:82

cuberl::rl::algos::dp::PolicyImprovement::on_training_episode
virtual EpisodeInfo on_training_episode(env_type &env, uint_t episode_idx) override
on_episode Do one on_episode of the algorithm
Definition policy_improvement.h:127

cuberl::rl::policies::StochasticAdaptorPolicy
The StochasticAdaptorPolicy class.
Definition policy_stochastic_adaptor.h:27

dp_algo_base.h

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::DynVec
Eigen::RowVectorX< T > DynVec
Dynamically sized row vector.
Definition bitrl_types.h:74

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

cuberl::rl::algos::state_actions_from_v
auto state_actions_from_v(const WorldTp &env, const DynVec< real_t > &v, real_t gamma, uint_t state) -> DynVec< real_t >
Given the state index returns the list of actions under the provided value functions.
Definition utils.h:23

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

policy_stochastic_adaptor.h

cuberl::rl::EpisodeInfo
The EpisodeInfo struct.
Definition episode_info.h:19

utils.h