bitrl_cuberl_docs/iterative__policy__evaluation_8h_source.html

#ifndef ITERATIVE_POLICY_EVALUATION_H

#define ITERATIVE_POLICY_EVALUATION_H


#include "cuberl/base/cuberl_types.h"

#include "cuberl/rl/algorithms/dp/dp_algo_base.h"


#include "bitrl/utils/iteration_counter.h"

#include "bitrl/utils/io/csv_file_writer.h"

#include "bitrl/bitrl_consts.h"


#include <chrono>

#include <cmath>


namespace cuberl{

namespace rl::algos::dp

{


    struct IterativePolicyEvalConfig

    {

        real_t gamma{1.0};

        real_t tolerance{1.0e-6};

        std::string save_path{bitrl::consts::INVALID_STR};

    };


    template<typename EnvType, typename PolicyType>


    class IterativePolicyEvalutationSolver final: public DPSolverBase<EnvType>

    {

    public:


        typedef typename DPSolverBase<EnvType>::env_type env_type;


        typedef PolicyType policy_type;


        explicit IterativePolicyEvalutationSolver(IterativePolicyEvalConfig config,

                                                  policy_type& policy);


        virtual void actions_before_training_begins(env_type& env)override;


        virtual void actions_after_training_ends(env_type& env)override;


        virtual void actions_before_episode_begins(env_type&, uint_t /*episode_idx*/)override{}


        virtual void actions_after_episode_ends(env_type&, uint_t /*episode_idx*/, const EpisodeInfo& /*einfo*/)override{}


        virtual EpisodeInfo on_training_episode(env_type& env, uint_t episode_idx) override;


        void save(const std::string& filename)const;


        DynVec<real_t> get_value_function()const{return v_;}


        policy_type get_policy()const{return policy_;}


        void update_policy(const policy_type& other){policy_.update(other);}


    protected:


        IterativePolicyEvalConfig config_;

        DynVec<real_t> v_;


        policy_type& policy_;


    };


    template<typename EnvType, typename PolicyType>


    IterativePolicyEvalutationSolver<EnvType, PolicyType>::IterativePolicyEvalutationSolver(IterativePolicyEvalConfig config,

        policy_type& policy)

        :

        DPSolverBase<EnvType>(),

        config_(config),

        v_(),

        policy_(policy)

    {}


    template<typename EnvType, typename PolicyType>

    void


    IterativePolicyEvalutationSolver<EnvType, PolicyType>::actions_before_training_begins(env_type& env){


        v_.resize(env.n_states());

        std::for_each(v_.begin(), v_.end(),

                      [](auto& item){item = 0.0;});

    }


    template<typename EnvType, typename PolicyType>

    void


    IterativePolicyEvalutationSolver<EnvType, PolicyType>::actions_after_training_ends(env_type& /*env*/){


        if(config_.save_path != bitrl::consts::INVALID_STR){

            save(config_.save_path);

        }

    }


    template<typename EnvType, typename PolicyType>

    EpisodeInfo


    IterativePolicyEvalutationSolver<EnvType, PolicyType>::on_training_episode(env_type& env, uint_t episode_idx){


        auto start = std::chrono::steady_clock::now();

        auto episode_rewards = 0.0;

        auto delta = 0.0;


        bitrl::utils::IterationCounter itr_counter(env.n_states());

        uint_t s = 0;

        while(itr_counter.continue_iterations()){

            // every time we query itr_counter we increase the

            // counter so we miss the zero state

            auto old_v = v_[s];

            auto new_v = 0.0;


            auto state_actions_probs = policy_(s);


            for(const auto& action_prob : state_actions_probs){


                auto aidx = action_prob.first;

                auto action_p = action_prob.second;


                // get transition dynamics from the environment

                auto transition_dyn = env.p(s, aidx);


                for(auto& dyn: transition_dyn){

                    auto prob = std::get<0>(dyn);

                    auto next_state = std::get<1>(dyn);

                    auto reward = std::get<2>(dyn);

                    new_v += action_p * prob * (reward + config_.gamma * v_[next_state]);

                    episode_rewards += reward;

                }

            }


            delta = std::max(delta, std::fabs(old_v - new_v));

            v_[s] = new_v;

            s += 1;

        }


        auto end = std::chrono::steady_clock::now();

        std::chrono::duration<real_t> elapsed_seconds = end-start;


        EpisodeInfo info;

        info.episode_index = episode_idx;

        info.episode_reward = episode_rewards;

        info.episode_iterations = itr_counter.current_iteration_index();

        info.total_time = elapsed_seconds;


        if( delta < config_.tolerance){

            info.stop_training = true;

        }


        return info;

    }


    template<typename EnvType, typename PolicyType>

    void


    IterativePolicyEvalutationSolver<EnvType, PolicyType>::save(const std::string& filename)const{


        bitrl::utils::io::CSVWriter file_writer(filename, ',');

        file_writer.open();

        file_writer.write_column_names({"state_index", "value_function"});


        for(uint_t s=0; s < static_cast<uint_t>(v_.size()); ++s){

            auto row = std::make_tuple(s, v_[s]);

            file_writer.write_row(row);

        }

    }


}

}


#endif // ITERATIVE_POLICY_EVALUATION_H


bitrl_consts.h

bitrl::utils::IterationCounter
The IterationCounter class.
Definition iteration_counter.h:15

bitrl::utils::IterationCounter::current_iteration_index
uint_t current_iteration_index() const noexcept
current_iteration_index
Definition iteration_counter.h:33

bitrl::utils::IterationCounter::continue_iterations
bool continue_iterations() noexcept
continue_iterations
Definition iteration_counter.h:58

bitrl::utils::io::CSVWriter
The CSVWriter class. Handles writing into CSV file format.
Definition csv_file_writer.h:22

bitrl::utils::io::CSVWriter::write_column_names
void write_column_names(const std::vector< std::string > &col_names, bool write_header=true)
Write the column names.
Definition csv_file_writer.cpp:16

bitrl::utils::io::CSVWriter::write_row
void write_row(const std::vector< T > &vals)
Write a row of the file.
Definition csv_file_writer.h:89

bitrl::utils::io::FileWriterBase::open
virtual void open() override
Open the file for writing.
Definition file_writer_base.cpp:21

cuberl::rl::algos::dp::DPSolverBase
The DPSolverBase class.
Definition dp_algo_base.h:21

cuberl::rl::algos::dp::DPSolverBase::env_type
RLSolverBase< EnvType >::env_type env_type
The environment type the solver is using.
Definition dp_algo_base.h:27

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver
The IterativePolicyEval class.
Definition iterative_policy_evaluation.h:31

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::actions_before_episode_begins
virtual void actions_before_episode_begins(env_type &, uint_t) override
actions_before_training_episode
Definition iterative_policy_evaluation.h:65

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::config_
IterativePolicyEvalConfig config_
Definition iterative_policy_evaluation.h:103

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::actions_before_training_begins
virtual void actions_before_training_begins(env_type &env) override
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...
Definition iterative_policy_evaluation.h:128

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::save
void save(const std::string &filename) const
Definition iterative_policy_evaluation.h:203

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::policy_type
PolicyType policy_type
policy_type
Definition iterative_policy_evaluation.h:42

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::actions_after_training_ends
virtual void actions_after_training_ends(env_type &env) override
actions_after_training_ends. Actions to execute after the training iterations have finisehd
Definition iterative_policy_evaluation.h:137

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::policy_
policy_type & policy_
policy_
Definition iterative_policy_evaluation.h:112

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::actions_after_episode_ends
virtual void actions_after_episode_ends(env_type &, uint_t, const EpisodeInfo &) override
actions_after_training_episode
Definition iterative_policy_evaluation.h:70

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::v_
DynVec< real_t > v_
v_
Definition iterative_policy_evaluation.h:107

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::get_value_function
DynVec< real_t > get_value_function() const
value_function
Definition iterative_policy_evaluation.h:86

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::env_type
DPSolverBase< EnvType >::env_type env_type
env_type
Definition iterative_policy_evaluation.h:37

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::update_policy
void update_policy(const policy_type &other)
update_policy
Definition iterative_policy_evaluation.h:98

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::IterativePolicyEvalutationSolver
IterativePolicyEvalutationSolver(IterativePolicyEvalConfig config, policy_type &policy)
IterativePolicyEval.
Definition iterative_policy_evaluation.h:117

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::on_training_episode
virtual EpisodeInfo on_training_episode(env_type &env, uint_t episode_idx) override
on_episode Do one on_episode of the algorithm
Definition iterative_policy_evaluation.h:146

cuberl::rl::algos::dp::IterativePolicyEvalutationSolver::get_policy
policy_type get_policy() const
get_policy
Definition iterative_policy_evaluation.h:92

csv_file_writer.h

cuberl_types.h

dp_algo_base.h

iteration_counter.h

bitrl::consts::INVALID_STR
const std::string INVALID_STR
Invalid string.
Definition bitrl_consts.h:26

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::DynVec
Eigen::RowVectorX< T > DynVec
Dynamically sized row vector.
Definition bitrl_types.h:74

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

cuberl::rl::EpisodeInfo
The EpisodeInfo struct.
Definition episode_info.h:19

cuberl::rl::algos::dp::IterativePolicyEvalConfig
Definition iterative_policy_evaluation.h:20

cuberl::rl::algos::dp::IterativePolicyEvalConfig::save_path
std::string save_path
Definition iterative_policy_evaluation.h:23

cuberl::rl::algos::dp::IterativePolicyEvalConfig::gamma
real_t gamma
Definition iterative_policy_evaluation.h:21

cuberl::rl::algos::dp::IterativePolicyEvalConfig::tolerance
real_t tolerance
Definition iterative_policy_evaluation.h:22