bitrl_cuberl_docs/value__iteration_8h_source.html

#ifndef VALUE_ITERATION_H

#define VALUE_ITERATION_H


#include "cuberl/base/cubeai_config.h" //KERNEL_PRINT_DBG_MSGS

#include "cuberl/base/cuberl_types.h"


#include "cuberl/rl/algorithms/dp/dp_algo_base.h"

#include "cuberl/rl/algorithms/dp/policy_improvement.h"

#include "cuberl/rl/algorithms/utils.h"

#include "cuberl/rl/episode_info.h"

#include "cuberl/rl/policies/max_tabular_policy.h"

#include "bitrl/utils/io/csv_file_writer.h"

#include "bitrl/bitrl_consts.h"


#include <memory>

#include <cmath>

#include <string>


namespace cuberl{

namespace rl::algos::dp

{


    struct ValueIterationConfig

    {

        real_t gamma{1.0};

        real_t tolerance {bitrl::consts::TOLERANCE};

        std::string save_path{bitrl::consts::INVALID_STR};

    };


    template<typename EnvType>


    class ValueIteration: public DPSolverBase<EnvType>

    {

    public:


        typedef typename DPSolverBase<EnvType>::env_type env_type;


        ValueIteration(const ValueIterationConfig config);


        virtual void actions_before_training_begins(env_type& env)override;


        virtual void actions_after_training_ends(env_type& /*env*/)override;


        virtual void actions_before_episode_begins(env_type&, uint_t /*episode_idx*/)override{}


        virtual void actions_after_episode_ends(env_type&, uint_t /*episode_idx*/,

                                                const EpisodeInfo& /*einfo*/)override{}


        virtual EpisodeInfo on_training_episode(env_type& env, uint_t episode_idx) override;


        void save(const std::string& filename)const;


        cuberl::rl::policies::MaxTabularPolicy build_policy(const env_type& env)const;


    private:


        ValueIterationConfig config_;


        DynVec<real_t> v_;


    };


    template<typename EnvType>


    ValueIteration<EnvType>::ValueIteration(const ValueIterationConfig config)

        :

        DPSolverBase<EnvType>(),

        config_(config)

    {}


    template<typename EnvType>

    void


    ValueIteration<EnvType>::actions_before_training_begins(env_type& env){

        v_ = DynVec<real_t>::Zero(env.n_states());

    }


    template<typename EnvType>

    EpisodeInfo


    ValueIteration<EnvType>::on_training_episode(env_type& env,

                                                 uint_t episode_idx){


        // start timing the training

        auto start = std::chrono::steady_clock::now();


        EpisodeInfo info;

        auto delta = 0.0;

        for(uint_t s=0; s< env.n_states(); ++s){


            auto v = v_[s];

            auto max_val = state_actions_from_v(env, v_, config_.gamma, s).maxCoeff();


            v_[s] = max_val;

            delta = std::max(delta, std::fabs(v_[s] - v));

        }


        // inform the outer loop that

        // we converged

        if(delta < config_.tolerance){

            info.stop_training = true;

        }


        auto end = std::chrono::steady_clock::now();

        std::chrono::duration<real_t> elapsed_seconds = end-start;


        info.episode_index = episode_idx;

        info.episode_iterations = env.n_states();

        info.total_time = elapsed_seconds;


        // this is artificial but helps

        // to monitor convergence

        info.episode_reward = delta;


        return info;

    }


    template<typename EnvType>

    void


    ValueIteration<EnvType>::actions_after_training_ends(env_type&){

        if(config_.save_path != bitrl::consts::INVALID_STR){

            save(config_.save_path);

        }


    }


    template<typename EnvType>

    void


    ValueIteration<EnvType>::save(const std::string& filename)const{


        bitrl::utils::io::CSVWriter file_writer(filename, ',');

        file_writer.open();


        file_writer.write_column_names({"state_index", "value_function"});


        for(uint_t s=0; s < static_cast<uint_t>(v_.size()); ++s){

            auto row = std::make_tuple(s, v_[s]);

            file_writer.write_row(row);

        }

    }


    template<typename EnvType>

    cuberl::rl::policies::MaxTabularPolicy


    ValueIteration<EnvType>::build_policy(const env_type& env)const{


        cuberl::rl::policies::MaxTabularPolicy policy;

        cuberl::rl::policies::MaxTabularPolicyBuilder builder;

        builder.build_from_state_function(env, v_,

                                          config_.gamma,policy);

        return policy;


    }


}

}


#endif // VALUE_ITERATION_H

bitrl_consts.h

bitrl::utils::io::CSVWriter
The CSVWriter class. Handles writing into CSV file format.
Definition csv_file_writer.h:22

bitrl::utils::io::CSVWriter::write_column_names
void write_column_names(const std::vector< std::string > &col_names, bool write_header=true)
Write the column names.
Definition csv_file_writer.cpp:16

bitrl::utils::io::CSVWriter::write_row
void write_row(const std::vector< T > &vals)
Write a row of the file.
Definition csv_file_writer.h:89

bitrl::utils::io::FileWriterBase::open
virtual void open() override
Open the file for writing.
Definition file_writer_base.cpp:21

cuberl::rl::algos::dp::DPSolverBase
The DPSolverBase class.
Definition dp_algo_base.h:21

cuberl::rl::algos::dp::DPSolverBase::env_type
RLSolverBase< EnvType >::env_type env_type
The environment type the solver is using.
Definition dp_algo_base.h:27

cuberl::rl::algos::dp::ValueIteration
ValueIteration class.
Definition value_iteration.h:39

cuberl::rl::algos::dp::ValueIteration::ValueIteration
ValueIteration(const ValueIterationConfig config)
ValueIteration.
Definition value_iteration.h:106

cuberl::rl::algos::dp::ValueIteration::save
void save(const std::string &filename) const
Definition value_iteration.h:169

cuberl::rl::algos::dp::ValueIteration::actions_before_training_begins
virtual void actions_before_training_begins(env_type &env) override
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...
Definition value_iteration.h:115

cuberl::rl::algos::dp::ValueIteration::env_type
DPSolverBase< EnvType >::env_type env_type
env_t
Definition value_iteration.h:45

cuberl::rl::algos::dp::ValueIteration::actions_after_episode_ends
virtual void actions_after_episode_ends(env_type &, uint_t, const EpisodeInfo &) override
actions_after_training_episode
Definition value_iteration.h:72

cuberl::rl::algos::dp::ValueIteration::actions_before_episode_begins
virtual void actions_before_episode_begins(env_type &, uint_t) override
actions_before_training_episode
Definition value_iteration.h:67

cuberl::rl::algos::dp::ValueIteration::actions_after_training_ends
virtual void actions_after_training_ends(env_type &) override
actions_after_training_ends. Actions to execute after the training iterations have finisehd
Definition value_iteration.h:160

cuberl::rl::algos::dp::ValueIteration::on_training_episode
virtual EpisodeInfo on_training_episode(env_type &env, uint_t episode_idx) override
on_episode Do one on_episode of the algorithm
Definition value_iteration.h:121

cuberl::rl::algos::dp::ValueIteration::build_policy
cuberl::rl::policies::MaxTabularPolicy build_policy(const env_type &env) const
Definition value_iteration.h:184

cuberl::rl::policies::MaxTabularPolicy
class MaxTabularPolicy
Definition max_tabular_policy.h:30

csv_file_writer.h

cuberl_types.h

dp_algo_base.h

episode_info.h

max_tabular_policy.h

bitrl::consts::TOLERANCE
const real_t TOLERANCE
Tolerance used around the library.
Definition bitrl_consts.h:31

bitrl::consts::INVALID_STR
const std::string INVALID_STR
Invalid string.
Definition bitrl_consts.h:26

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::DynVec
Eigen::RowVectorX< T > DynVec
Dynamically sized row vector.
Definition bitrl_types.h:74

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

cuberl::rl::algos::state_actions_from_v
auto state_actions_from_v(const WorldTp &env, const DynVec< real_t > &v, real_t gamma, uint_t state) -> DynVec< real_t >
Given the state index returns the list of actions under the provided value functions.
Definition utils.h:23

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

policy_improvement.h

cuberl::rl::EpisodeInfo
The EpisodeInfo struct.
Definition episode_info.h:19

cuberl::rl::algos::dp::ValueIterationConfig
The ValueIterationConfig struct.
Definition value_iteration.h:28

cuberl::rl::algos::dp::ValueIterationConfig::save_path
std::string save_path
Definition value_iteration.h:31

cuberl::rl::algos::dp::ValueIterationConfig::tolerance
real_t tolerance
Definition value_iteration.h:30

cuberl::rl::algos::dp::ValueIterationConfig::gamma
real_t gamma
Definition value_iteration.h:29

cuberl::rl::policies::MaxTabularPolicyBuilder
Definition max_tabular_policy.h:125

cuberl::rl::policies::MaxTabularPolicyBuilder::build_from_state_function
void build_from_state_function(const EnvType &env, const DynVec< real_t > &v, real_t gamma, MaxTabularPolicy &policy)
Definition max_tabular_policy.h:139

utils.h