bitrl_cuberl_docs/q__learning_8h_source.html

#ifndef Q_LEARNING_H

#define Q_LEARNING_H


#include "cuberl/base/cuberl_types.h"

#include "cuberl/rl/episode_info.h"

#include "cuberl/rl/algorithms/td/td_algo_base.h"

#include "cuberl/rl/worlds/envs_concepts.h"

#include "cuberl/rl/policies/max_tabular_policy.h"

#include "cuberl/maths/matrix_utilities.h"


#include "bitrl/utils/io/csv_file_writer.h"

#include "bitrl/bitrl_consts.h"


#ifdef CUBERL_DEBUG

#include <cassert>

#endif


#include <chrono>


namespace cuberl {

namespace rl::algos::td

{


    struct QLearningConfig

    {

        bool average_episode_reward{true};

        uint_t n_episodes;

        uint_t max_num_iterations_per_episode;

        real_t tolerance;

        real_t gamma;

        real_t eta;

        std::string path{bitrl::consts::INVALID_STR};


    };


    template<envs::discrete_world_concept EnvTp, typename PolicyType>


    class QLearningSolver final: public TDAlgoBase<EnvTp>

    {


    public:


        typedef typename TDAlgoBase<EnvTp>::env_type env_type;


        typedef typename TDAlgoBase<EnvTp>::action_type action_type;


        typedef typename TDAlgoBase<EnvTp>::state_type state_type;


        typedef PolicyType policy_type;


        QLearningSolver(const QLearningConfig config, const PolicyType& policy);


        virtual void actions_before_training_begins(env_type&);


        virtual void actions_after_training_ends(env_type&);


        virtual void actions_before_episode_begins(env_type&, uint_t /*episode_idx*/){}


        virtual void actions_after_episode_ends(env_type&, uint_t episode_idx,

                                                const EpisodeInfo& /*einfo*/);


        virtual EpisodeInfo on_training_episode(env_type&, uint_t episode_idx);


        void save(const std::string& filename)const;


        cuberl::rl::policies::MaxTabularPolicy build_policy()const;


    private:


        QLearningConfig config_;


        policy_type policy_;


        DynMat<real_t> q_table_;


        void update_q_table_(const action_type& action, const state_type& cstate,

                             const state_type& next_state, const  action_type& next_action,

                             real_t reward);


    };


    template <envs::discrete_world_concept EnvTp, typename PolicyType>


    QLearningSolver<EnvTp, PolicyType>::QLearningSolver(const QLearningConfig config,

                                                        const PolicyType& policy)

        :

        TDAlgoBase<EnvTp>(),

        config_(config),

        policy_(policy),

        q_table_()

    {}


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    QLearningSolver<EnvTp, PolicyType>::actions_before_training_begins(env_type& env){

        q_table_ = DynMat<real_t>(env.n_states(), env.n_actions());


        for(uint_t i=0; i < env.n_states(); ++i)

            for(uint_t j=0; j < env.n_actions(); ++j)

                q_table_(i, j) = 0.0;


    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    QLearningSolver<EnvTp, PolicyType>::actions_after_training_ends(env_type&){


        if(config_.path != bitrl::consts::INVALID_STR){

            save(config_.path);

        }

    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    EpisodeInfo


    QLearningSolver<EnvTp, PolicyType>::on_training_episode(env_type& env, uint_t episode_idx){


        auto start = std::chrono::steady_clock::now();

        EpisodeInfo info;


        // total score for the episode

        auto episode_score = 0.0;

        auto state = env.reset().observation();


        uint_t itr=0;

        for(;  itr < config_.max_num_iterations_per_episode; ++itr){


            // select an action

            auto action = policy_(q_table_, state);


            // Take a on_episode

            auto step_type_result = env.step(action);


            auto next_state = step_type_result.observation();

            auto reward = step_type_result.reward();

            auto done = step_type_result.done();


            // accumulate score

            episode_score += reward;


            if(!done){

                auto next_action = policy_(q_table_, state);

                update_q_table_(action, state, next_state, next_action, reward);

                state = next_state;

                action = next_action;

            }

            else{


                update_q_table_(action, state,

                                bitrl::consts::INVALID_ID,

                                bitrl::consts::INVALID_ID,

                                reward);


                break;

            }

        }


        auto end = std::chrono::steady_clock::now();

        std::chrono::duration<real_t> elapsed_seconds = end-start;


        info.episode_index = episode_idx;

        info.episode_reward = config_.average_episode_reward ? episode_score / static_cast<real_t>(itr) : episode_score;

        info.episode_iterations = itr;

        info.total_time = elapsed_seconds;

        return info;

    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    QLearningSolver<EnvTp, PolicyType>::actions_after_episode_ends(env_type&, uint_t episode_idx,

                                                                   const EpisodeInfo& /*einfo*/){

        policy_.on_episode(episode_idx);

    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    void


    QLearningSolver<EnvTp, PolicyType>::save(const std::string& filename)const{


        bitrl::utils::io::CSVWriter file_writer(filename, ',');

        file_writer.open();


        std::vector<std::string> col_names(1 + q_table_.cols());

        col_names[0] = "state_index";


        for(uint_t i = 0; i< static_cast<uint_t>(q_table_.cols()); ++i){

            col_names[i + 1] = "action_" + std::to_string(i);

        }


        file_writer.write_column_names(col_names);


        for(uint_t s=0; s < static_cast<uint_t>(q_table_.rows()); ++s){

            auto actions = maths::get_row(q_table_, s);

            auto row = std::make_tuple(s, actions);

            file_writer.write_row(row);

        }

    }


    template<envs::discrete_world_concept EnvTp, typename PolicyType>

    cuberl::rl::policies::MaxTabularPolicy


    QLearningSolver<EnvTp, PolicyType>::build_policy()const{


        cuberl::rl::policies::MaxTabularPolicy policy;

        cuberl::rl::policies::MaxTabularPolicyBuilder builder;

        builder.build_from_state_action_function(q_table_,policy);

        return policy;


    }


    template <envs::discrete_world_concept EnvTp, typename PolicyType>

    void

    QLearningSolver<EnvTp, PolicyType>::update_q_table_(const action_type& action, const state_type& cstate,

                                                        const state_type& next_state,

                                                        const  action_type& /*next_action*/, real_t reward){


        auto q_current = q_table_(cstate, action);

        auto q_next = next_state != bitrl::consts::INVALID_ID ? cuberl::maths::get_row_max(q_table_, next_state) : 0.0;


        auto td_target = reward + config_.gamma * q_next;

        q_table_(cstate, action) = q_current + (config_.eta * (td_target - q_current));


    }


}

}


#endif // Q_LEARNING_H

bitrl_consts.h

bitrl::utils::io::CSVWriter
The CSVWriter class. Handles writing into CSV file format.
Definition csv_file_writer.h:22

bitrl::utils::io::CSVWriter::write_column_names
void write_column_names(const std::vector< std::string > &col_names, bool write_header=true)
Write the column names.
Definition csv_file_writer.cpp:16

bitrl::utils::io::CSVWriter::write_row
void write_row(const std::vector< T > &vals)
Write a row of the file.
Definition csv_file_writer.h:89

bitrl::utils::io::FileWriterBase::open
virtual void open() override
Open the file for writing.
Definition file_writer_base.cpp:21

cuberl::rl::algos::td::QLearningSolver
The QLearning class. Table based implementation of the Q-learning algorithm using epsilon-greedy poli...
Definition q_learning.h:48

cuberl::rl::algos::td::QLearningSolver::env_type
TDAlgoBase< EnvTp >::env_type env_type
env_t
Definition q_learning.h:55

cuberl::rl::algos::td::QLearningSolver::on_training_episode
virtual EpisodeInfo on_training_episode(env_type &, uint_t episode_idx)
on_episode Do one on_episode of the algorithm
Definition q_learning.h:175

cuberl::rl::algos::td::QLearningSolver::state_type
TDAlgoBase< EnvTp >::state_type state_type
state_t
Definition q_learning.h:65

cuberl::rl::algos::td::QLearningSolver::QLearningSolver
QLearningSolver(const QLearningConfig config, const PolicyType &policy)
Constructor.
Definition q_learning.h:143

cuberl::rl::algos::td::QLearningSolver::build_policy
cuberl::rl::policies::MaxTabularPolicy build_policy() const
Build the policy after training.
Definition q_learning.h:262

cuberl::rl::algos::td::QLearningSolver::actions_before_training_begins
virtual void actions_before_training_begins(env_type &)
actions_before_training_begins. Execute any actions the algorithm needs before starting the iteration...
Definition q_learning.h:154

cuberl::rl::algos::td::QLearningSolver::action_type
TDAlgoBase< EnvTp >::action_type action_type
action_t
Definition q_learning.h:60

cuberl::rl::algos::td::QLearningSolver::save
void save(const std::string &filename) const
Save the state-action function in a CSV format.
Definition q_learning.h:238

cuberl::rl::algos::td::QLearningSolver::actions_after_episode_ends
virtual void actions_after_episode_ends(env_type &, uint_t episode_idx, const EpisodeInfo &)
actions_after_training_episode
Definition q_learning.h:231

cuberl::rl::algos::td::QLearningSolver::actions_before_episode_begins
virtual void actions_before_episode_begins(env_type &, uint_t)
actions_before_training_episode
Definition q_learning.h:92

cuberl::rl::algos::td::QLearningSolver::policy_type
PolicyType policy_type
action_selector_t
Definition q_learning.h:70

cuberl::rl::algos::td::QLearningSolver::actions_after_training_ends
virtual void actions_after_training_ends(env_type &)
actions_after_training_ends. Actions to execute after the training iterations have finisehd
Definition q_learning.h:165

cuberl::rl::algos::td::TDAlgoBase
The TDAlgoBase class. Base class for deriving TD algorithms.
Definition td_algo_base.h:19

cuberl::rl::algos::td::TDAlgoBase::action_type
env_type::action_type action_type
action_t
Definition td_algo_base.h:30

cuberl::rl::algos::td::TDAlgoBase::state_type
env_type::state_type state_type
state_t
Definition td_algo_base.h:35

cuberl::rl::algos::td::TDAlgoBase::env_type
EnvType env_type
env_t
Definition td_algo_base.h:25

cuberl::rl::policies::MaxTabularPolicy
class MaxTabularPolicy
Definition max_tabular_policy.h:30

csv_file_writer.h

cuberl_types.h

envs_concepts.h

episode_info.h

matrix_utilities.h

max_tabular_policy.h

bitrl::consts::INVALID_ID
const uint_t INVALID_ID
Invalid id.
Definition bitrl_consts.h:21

bitrl::consts::INVALID_STR
const std::string INVALID_STR
Invalid string.
Definition bitrl_consts.h:26

bitrl::real_t
double real_t
real_t
Definition bitrl_types.h:23

bitrl::uint_t
std::size_t uint_t
uint_t
Definition bitrl_types.h:43

bitrl::DynMat
Eigen::MatrixX< T > DynMat
Dynamically sized matrix to use around the library.
Definition bitrl_types.h:49

cuberl::maths::get_row_max
T get_row_max(const DynMat< T > &matrix, uint_t row_idx)
Definition matrix_utilities.h:136

cuberl::maths::get_row
DynVec< T > get_row(const DynMat< T > &matrix, uint_t row_idx)
Extract the cidx-th column from the matrix.
Definition matrix_utilities.h:130

cuberl
Various utilities used when working with RL problems.
Definition cuberl_types.h:16

cuberl::rl::EpisodeInfo
The EpisodeInfo struct.
Definition episode_info.h:19

cuberl::rl::algos::td::QLearningConfig
The QLearningConfig struct.
Definition q_learning.h:28

cuberl::rl::algos::td::QLearningConfig::path
std::string path
Definition q_learning.h:35

cuberl::rl::algos::td::QLearningConfig::max_num_iterations_per_episode
uint_t max_num_iterations_per_episode
Definition q_learning.h:31

cuberl::rl::algos::td::QLearningConfig::n_episodes
uint_t n_episodes
Definition q_learning.h:30

cuberl::rl::algos::td::QLearningConfig::gamma
real_t gamma
Definition q_learning.h:33

cuberl::rl::algos::td::QLearningConfig::eta
real_t eta
Definition q_learning.h:34

cuberl::rl::algos::td::QLearningConfig::tolerance
real_t tolerance
Definition q_learning.h:32

cuberl::rl::algos::td::QLearningConfig::average_episode_reward
bool average_episode_reward
Definition q_learning.h:29

cuberl::rl::policies::MaxTabularPolicyBuilder
Definition max_tabular_policy.h:125

cuberl::rl::policies::MaxTabularPolicyBuilder::build_from_state_action_function
void build_from_state_action_function(const DynMat< real_t > &q, MaxTabularPolicy &policy)

td_algo_base.h