bitrl_cuberl_docs/sarsa_8h_source.html

#ifndef SARSA_H

#define SARSA_H


#include "cuberl/base/cubeai_config.h"

#include "cuberl/rl/algorithms/td/td_algo_base.h"

#include "cuberl/rl/worlds/envs_concepts.h"

#include "cuberl/rl/episode_info.h"

#include "cuberl/rl/policies/max_tabular_policy.h"

#include "cuberl/maths/matrix_utilities.h"


#include "bitrl/utils/io/csv_file_writer.h"

#include "bitrl/bitrl_consts.h"


#ifdef CUBERL_DEBUG

#include <cassert>

#endif


#include <chrono>

#include <iostream>

#include <string>


namespace cuberl{

namespace rl::algos::td

{


    struct SarsaConfig

    {

        uint_t n_episodes;

        real_t tolerance;

        real_t gamma;

        real_t eta;

        uint_t max_num_iterations_per_episode;

        std::string path{bitrl::consts::INVALID_STR};

    };


    template<envs::discrete_world_concept EnvType, typename PolicyType>


    class SarsaSolver final: public TDAlgoBase<EnvType>

    {

    public:


        typedef typename TDAlgoBase<EnvType>::env_type env_type;


        typedef typename TDAlgoBase<EnvType>::action_type action_type;


        typedef typename TDAlgoBase<EnvType>::state_type state_type;


        typedef PolicyType policy_type;


        SarsaSolver(SarsaConfig config, const PolicyType& selector);


        virtual void actions_before_training_begins(env_type&);


        virtual void actions_after_training_ends(env_type&);


        virtual void actions_before_episode_begins(env_type&, uint_t /*episode_idx*/){}


        virtual void actions_after_episode_ends(env_type&, uint_t /*episode_idx*/,

                                                const EpisodeInfo& /*einfo*/){}


        virtual EpisodeInfo on_training_episode(env_type&, uint_t episode_idx);


        void save(const std::string& filename)const;


        cuberl::rl::policies::MaxTabularPolicy build_policy()const;


    private:


        SarsaConfig config_;


        policy_type policy_;


        DynMat<real_t> q_table_;


        void update_q_table_(const action_type& action,

                             const state_type& cstate,

                             const state_type& next_state,

                             const  action_type& next_action, real_t reward);

    };


    template<envs::discrete_world_concept EnvTp, typename PolicyType>


    SarsaSolver<EnvTp, PolicyType>::SarsaSolver(SarsaConfig config,

                                                const PolicyType& selector)

        :

        TDAlgoBase<EnvTp>(),

        config_(config),

        policy_(selector)

    {}


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    SarsaSolver<EnvTp, PolicyType>::actions_before_training_begins(env_type& env){

        q_table_ = DynMat<real_t>(env.n_states(), env.n_actions());


        for(uint_t i=0; i < env.n_states(); ++i)

            for(uint_t j=0; j < env.n_actions(); ++j)

                q_table_(i, j) = 0.0;


    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    SarsaSolver<EnvTp, PolicyType>::actions_after_training_ends(env_type&){


        if(config_.path != bitrl::consts::INVALID_STR){

            save(config_.path);

        }

    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    EpisodeInfo


    SarsaSolver<EnvTp, PolicyType>::on_training_episode(env_type& env,

                                                        uint_t episode_idx){


        auto start = std::chrono::steady_clock::now();

        EpisodeInfo info;


        // total score for the episode

        auto episode_score = 0.0;

        auto time_step = env.reset();

        auto state = time_step.observation();


        uint_t itr=0;

        for(;  itr < config_.max_num_iterations_per_episode; ++itr){


            // select an action

            auto action = policy_(q_table_, state);


            // Take a on_episode

            auto step_type_result = env.step(action);


            auto next_state = step_type_result.observation();

            auto reward = step_type_result.reward();

            auto done = step_type_result.done();


            // accumulate score

            episode_score += reward;


            if(!done){


                // use the policy to select the next action

                auto next_action = policy_(q_table_, state);

                update_q_table_(action, state, next_state, next_action, reward);

                state = next_state;

                action = next_action;

            }

            else{


                update_q_table_(action, state,

                                bitrl::consts::INVALID_ID,

                                bitrl::consts::INVALID_ID,

                                reward);


                break;

            }

        }


        auto end = std::chrono::steady_clock::now();

        std::chrono::duration<real_t> elapsed_seconds = end-start;


        info.episode_index = episode_idx;

        info.episode_reward = episode_score;

        info.episode_iterations = itr;

        info.total_time = elapsed_seconds;

        return info;

    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    SarsaSolver<EnvTp, PolicyType>::save(const std::string& filename)const{


        bitrl::utils::io::CSVWriter file_writer(filename, ',');

        file_writer.open();


        std::vector<std::string> col_names(1 + q_table_.cols());

        col_names[0] = "state_index";


        for(uint_t i = 0; i< static_cast<uint_t>(q_table_.cols()); ++i){

            col_names[i + 1] = "action_" + std::to_string(i);

        }


        file_writer.write_column_names(col_names);

        for(uint_t s=0; s < static_cast<uint_t>(q_table_.rows()); ++s){

            auto actions = maths::get_row(q_table_, s);

            auto row = std::make_tuple(s, actions);

            file_writer.write_row(row);

        }


    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void

    SarsaSolver<EnvTp, PolicyType>::update_q_table_(const action_type& action,

                                                    const state_type& cstate,

                                                    const state_type& next_state,

                                                    const action_type& next_action, real_t reward){


        auto q_current = q_table_(cstate, action);


        // with the SARSA solver we query the

        // q-function about its value at next state when taking next action

        // in Q-learning we form a maximum instead

        auto q_next = next_state != bitrl::consts::INVALID_ID ? q_table_(next_state, next_action) : 0.0;

        auto td_target = reward + config_.gamma * q_next;

        q_table_(cstate, action) = q_current + (config_.eta * (td_target - q_current));


    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    cuberl::rl::policies::MaxTabularPolicy


    SarsaSolver<EnvTp, PolicyType>::build_policy()const{


        cuberl::rl::policies::MaxTabularPolicy policy;

        cuberl::rl::policies::MaxTabularPolicyBuilder builder;

        builder.build_from_state_action_function(q_table_,policy);

        return policy;


    }


}

}


#endif // SARSA_H

bitrl_consts.h

bitrl::utils::io::CSVWriter
The CSVWriter class. Handles writing into CSV file format.
Definition csv_file_writer.h:22

bitrl::utils::io::CSVWriter::write_column_names
void write_column_names(const std::vector< std::string > &col_names, bool write_header=true)
Write the column names.
Definition csv_file_writer.cpp:16

bitrl::utils::io::CSVWriter::write_row
void write_row(const std::vector< T > &vals)
Write a row of the file.
Definition csv_file_writer.h:89

bitrl::utils::io::FileWriterBase::open
virtual void open() override
Open the file for writing.
Definition file_writer_base.cpp:21

cuberl::rl::algos::td::SarsaSolver
The Sarsa class.
Definition sarsa.h:47

cuberl::rl::algos::td::SarsaSolver::on_training_episode
virtual EpisodeInfo on_training_episode(env_type &, uint_t episode_idx)
on_episode Do one on_episode of the algorithm
Definition sarsa.h:173

cuberl::rl::algos::td::SarsaSolver::SarsaSolver
SarsaSolver(SarsaConfig config, const PolicyType &selector)
ExpectedSarsaSolver.
Definition sarsa.h:143

cuberl::rl::algos::td::SarsaSolver::save
void save(const std::string &filename) const
Build the policy after training.
Definition sarsa.h:231

cuberl::rl::algos::td::SarsaSolver::actions_before_episode_begins
virtual void actions_before_episode_begins(env_type &, uint_t)
actions_before_training_episode
Definition sarsa.h:90

cuberl::rl::algos::td::SarsaSolver::policy_type
PolicyType policy_type
action_selector_t
Definition sarsa.h:68

cuberl::rl::algos::td::SarsaSolver::actions_after_training_ends
virtual void actions_after_training_ends(env_type &)
actions_after_training_ends. Actions to execute after the training iterations have finisehd
Definition sarsa.h:164

cuberl::rl::algos::td::SarsaSolver::build_policy
cuberl::rl::policies::MaxTabularPolicy build_policy() const
Build the policy after training.
Definition sarsa.h:272

cuberl::rl::algos::td::SarsaSolver::state_type
TDAlgoBase< EnvType >::state_type state_type
state_t
Definition sarsa.h:63

cuberl::rl::algos::td::SarsaSolver::env_type
TDAlgoBase< EnvType >::env_type env_type
env_t
Definition sarsa.h:53

cuberl::rl::algos::td::SarsaSolver::action_type
TDAlgoBase< EnvType >::action_type action_type
action_t
Definition sarsa.h:58

cuberl::rl::algos::td::SarsaSolver::actions_before_training_begins
virtual void actions_before_training_begins(env_type &)
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...
Definition sarsa.h:153

cuberl::rl::algos::td::SarsaSolver::actions_after_episode_ends
virtual void actions_after_episode_ends(env_type &, uint_t, const EpisodeInfo &)
actions_after_training_episode
Definition sarsa.h:95

cuberl::rl::algos::td::TDAlgoBase
The TDAlgoBase class. Base class for deriving TD algorithms.
Definition td_algo_base.h:19

cuberl::rl::algos::td::TDAlgoBase::action_type
env_type::action_type action_type
action_t
Definition td_algo_base.h:30

cuberl::rl::algos::td::TDAlgoBase::state_type
env_type::state_type state_type
state_t
Definition td_algo_base.h:35

cuberl::rl::algos::td::TDAlgoBase::env_type
EnvType env_type
env_t
Definition td_algo_base.h:25

cuberl::rl::policies::MaxTabularPolicy
class MaxTabularPolicy
Definition max_tabular_policy.h:30

csv_file_writer.h

envs_concepts.h

episode_info.h

matrix_utilities.h

max_tabular_policy.h

bitrl::consts::INVALID_ID
const uint_t INVALID_ID
Invalid id.
Definition bitrl_consts.h:21

bitrl::consts::INVALID_STR
const std::string INVALID_STR
Invalid string.
Definition bitrl_consts.h:26

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

bitrl::DynMat
Eigen::MatrixX< T > DynMat
Dynamically sized matrix to use around the library.
Definition bitrl_types.h:49

cuberl::maths::get_row
DynVec< T > get_row(const DynMat< T > &matrix, uint_t row_idx)
Extract the cidx-th column from the matrix.
Definition matrix_utilities.h:130

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

cuberl::rl::EpisodeInfo
The EpisodeInfo struct.
Definition episode_info.h:19

cuberl::rl::algos::td::SarsaConfig
The SarsaConfig struct.
Definition sarsa.h:33

cuberl::rl::algos::td::SarsaConfig::n_episodes
uint_t n_episodes
Definition sarsa.h:34

cuberl::rl::algos::td::SarsaConfig::tolerance
real_t tolerance
Definition sarsa.h:35

cuberl::rl::algos::td::SarsaConfig::gamma
real_t gamma
Definition sarsa.h:36

cuberl::rl::algos::td::SarsaConfig::path
std::string path
Definition sarsa.h:39

cuberl::rl::algos::td::SarsaConfig::eta
real_t eta
Definition sarsa.h:37

cuberl::rl::algos::td::SarsaConfig::max_num_iterations_per_episode
uint_t max_num_iterations_per_episode
Definition sarsa.h:38

cuberl::rl::policies::MaxTabularPolicyBuilder
Definition max_tabular_policy.h:125

cuberl::rl::policies::MaxTabularPolicyBuilder::build_from_state_action_function
void build_from_state_action_function(const DynMat< real_t > &q, MaxTabularPolicy &policy)

td_algo_base.h