bitrl_cuberl_docs/policy__iteration_8h_source.html

#ifndef POLICY_ITERATION_H

#define POLICY_ITERATION_H


#include "cuberl/base/cuberl_types.h"

#include "cuberl/rl/algorithms/dp/dp_algo_base.h"

#include "cuberl/rl/algorithms/dp/iterative_policy_evaluation.h"

#include "cuberl/rl/algorithms/dp/policy_improvement.h"


#include "bitrl//utils/io/csv_file_writer.h"

#include "bitrl/bitrl_consts.h"


#include <string>


namespace cuberl{

namespace rl::algos::dp

{


    struct PolicyIterationConfig

    {

        uint_t n_policy_eval_steps;

        real_t gamma{1.0};

        real_t tolerance{1.0e-6};

        std::string save_path{bitrl::consts::INVALID_STR};

    };


    template<typename EnvType, typename PolicyType>


    class PolicyIterationSolver final: public DPSolverBase<EnvType>

    {

    public:


        typedef typename DPSolverBase<EnvType>::env_type env_type;


        typedef PolicyType policy_type;


        PolicyIterationSolver(PolicyIterationConfig config,

                              uint_t action_space_size,

                              policy_type& policy);


        virtual void actions_before_training_begins(env_type& env)override;


        virtual void actions_after_training_ends(env_type& /*env*/)override;


        virtual void actions_before_episode_begins(env_type&, uint_t /*episode_idx*/)override{}


        virtual void actions_after_episode_ends(env_type&, uint_t /*episode_idx*/,

                                                const EpisodeInfo& /*einfo*/)override{}


        virtual EpisodeInfo on_training_episode(env_type& env, uint_t episode_idx) override;


        void save(const std::string& filename)const;


    private:


        PolicyIterationConfig config_;


        DynVec<real_t> v_;


        IterativePolicyEvalutationSolver<env_type, policy_type> policy_eval_;


        PolicyImprovement<env_type, policy_type> policy_impr_;


    };


    template<typename EnvType, typename PolicyType>


    PolicyIterationSolver<EnvType, PolicyType>::PolicyIterationSolver(PolicyIterationConfig config,

                                                                      uint_t action_space_size,

                                                                      policy_type& policy)

        :

        DPSolverBase<EnvType>(),

        config_(config),

        v_(),

        policy_eval_({config.gamma, config.tolerance}, policy),

        policy_impr_(action_space_size, config.gamma, DynVec<real_t>(), policy)

    {}


    template<typename EnvType, typename PolicyType>

    void


    PolicyIterationSolver<EnvType, PolicyType>::actions_before_training_begins(env_type& env){


        policy_eval_.actions_before_training_begins(env);

        policy_impr_.actions_before_training_begins(env);

    }


    template<typename EnvType, typename PolicyType>

    void


    PolicyIterationSolver<EnvType, PolicyType>::actions_after_training_ends(env_type& /*env*/){

        v_ = policy_eval_.get_value_function();


        if(config_.save_path != bitrl::consts::INVALID_STR){

            save(config_.save_path);

        }

    }


    template<typename EnvType, typename PolicyType>

    EpisodeInfo


    PolicyIterationSolver<EnvType, PolicyType>::on_training_episode(env_type& env, uint_t episode_idx){


        auto start = std::chrono::steady_clock::now();

        EpisodeInfo info;


        auto episode_rewards = 0.0;


        // make a copy of the policy already obtained

        auto old_policy = policy_eval_.get_policy();


        for(uint_t itr=0; itr < config_.n_policy_eval_steps; ++itr ){

            // evaluate the policy

            policy_eval_.on_training_episode(env, itr);

        }


        // update the value function to

        // improve for

        policy_impr_.set_value_function( policy_eval_.get_value_function());


        // improve the policy

        auto policy_imp_info = policy_impr_.on_training_episode(env, episode_idx);


        // get the improved policy

        const auto& new_policy = policy_impr_.policy();


        // policy converged

        if(old_policy == new_policy){

            info.stop_training = true;

        }


        policy_eval_.update_policy(new_policy);


        auto end = std::chrono::steady_clock::now();

        std::chrono::duration<real_t> elapsed_seconds = end-start;


        info.episode_index = episode_idx;

        info.episode_reward = episode_rewards;

        info.episode_iterations = config_.n_policy_eval_steps + policy_imp_info.episode_iterations;

        info.total_time = elapsed_seconds;

        return info;

    }


    template<typename EnvType, typename PolicyType>

    void


    PolicyIterationSolver<EnvType, PolicyType>::save(const std::string& filename)const{


        bitrl::utils::io::CSVWriter file_writer(filename, ',');

        file_writer.open();


        file_writer.write_column_names({"state_index", "value_function"});


        auto vec_size = static_cast<uint_t>(v_.size());

        for(uint_t s=0; s < vec_size; ++s){

            auto row = std::make_tuple(s, v_[s]);

            file_writer.write_row(row);

        }

    }


}

}


#endif // POLICY_ITERATION_H

bitrl_consts.h

bitrl::utils::io::CSVWriter
The CSVWriter class. Handles writing into CSV file format.
Definition csv_file_writer.h:22

bitrl::utils::io::CSVWriter::write_column_names
void write_column_names(const std::vector< std::string > &col_names, bool write_header=true)
Write the column names.
Definition csv_file_writer.cpp:16

bitrl::utils::io::CSVWriter::write_row
void write_row(const std::vector< T > &vals)
Write a row of the file.
Definition csv_file_writer.h:89

bitrl::utils::io::FileWriterBase::open
virtual void open() override
Open the file for writing.
Definition file_writer_base.cpp:21

cuberl::rl::algos::RLSolverBase::actions_before_training_begins
virtual void actions_before_training_begins(env_type &)=0
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...

cuberl::rl::algos::dp::DPSolverBase
The DPSolverBase class.
Definition dp_algo_base.h:21

cuberl::rl::algos::dp::DPSolverBase::env_type
RLSolverBase< EnvType >::env_type env_type
The environment type the solver is using.
Definition dp_algo_base.h:27

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver
The IterativePolicyEval class.
Definition iterative_policy_evaluation.h:31

cuberl::rl::algos::dp::PolicyImprovement
The PolicyImprovement class. PolicyImprovement is not a real algorithm in the sense that it looks for...
Definition policy_improvement.h:23

cuberl::rl::algos::dp::PolicyIterationSolver
The policy iteration class.
Definition policy_iteration.h:35

cuberl::rl::algos::dp::PolicyIterationSolver::actions_before_training_begins
virtual void actions_before_training_begins(env_type &env) override
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...
Definition policy_iteration.h:126

cuberl::rl::algos::dp::PolicyIterationSolver::save
void save(const std::string &filename) const
save
Definition policy_iteration.h:189

cuberl::rl::algos::dp::PolicyIterationSolver::actions_after_training_ends
virtual void actions_after_training_ends(env_type &) override
actions_after_training_ends. Actions to execute after the training iterations have finisehd
Definition policy_iteration.h:134

cuberl::rl::algos::dp::PolicyIterationSolver::actions_after_episode_ends
virtual void actions_after_episode_ends(env_type &, uint_t, const EpisodeInfo &) override
actions_after_training_episode
Definition policy_iteration.h:75

cuberl::rl::algos::dp::PolicyIterationSolver::actions_before_episode_begins
virtual void actions_before_episode_begins(env_type &, uint_t) override
actions_before_training_episode
Definition policy_iteration.h:70

cuberl::rl::algos::dp::PolicyIterationSolver::PolicyIterationSolver
PolicyIterationSolver(PolicyIterationConfig config, uint_t action_space_size, policy_type &policy)
PolicyIteration.
Definition policy_iteration.h:112

cuberl::rl::algos::dp::PolicyIterationSolver::on_training_episode
virtual EpisodeInfo on_training_episode(env_type &env, uint_t episode_idx) override
on_episode Do one on_episode of the algorithm
Definition policy_iteration.h:144

cuberl::rl::algos::dp::PolicyIterationSolver::policy_type
PolicyType policy_type
policy_type
Definition policy_iteration.h:46

cuberl::rl::algos::dp::PolicyIterationSolver::env_type
DPSolverBase< EnvType >::env_type env_type
env_t
Definition policy_iteration.h:41

csv_file_writer.h

cuberl_types.h

dp_algo_base.h

iterative_policy_evaluation.h

bitrl::consts::INVALID_STR
const std::string INVALID_STR
Invalid string.
Definition bitrl_consts.h:26

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::DynVec
Eigen::RowVectorX< T > DynVec
Dynamically sized row vector.
Definition bitrl_types.h:74

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

policy_improvement.h

cuberl::rl::EpisodeInfo
The EpisodeInfo struct.
Definition episode_info.h:19

cuberl::rl::algos::dp::PolicyIterationConfig
The PolicyIterationConfig struct.
Definition policy_iteration.h:23

cuberl::rl::algos::dp::PolicyIterationConfig::gamma
real_t gamma
Definition policy_iteration.h:25

cuberl::rl::algos::dp::PolicyIterationConfig::save_path
std::string save_path
Definition policy_iteration.h:27

cuberl::rl::algos::dp::PolicyIterationConfig::tolerance
real_t tolerance
Definition policy_iteration.h:26

cuberl::rl::algos::dp::PolicyIterationConfig::n_policy_eval_steps
uint_t n_policy_eval_steps
Definition policy_iteration.h:24