Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
monte_carlo		monte_carlo
n_step_temporal_difference		n_step_temporal_difference
policy_iteration		policy_iteration
q-learning		q-learning
sarsa		sarsa
td-lambda		td-lambda
temporal_difference		temporal_difference
utils		utils
value_iteration		value_iteration
.gitignore		.gitignore
README.md		README.md

Repository files navigation

Reinforcement-Learning-Practice

Practice code from Reinforcement Learning

Available algorithms

Policy Iteration from MDP
- policy_iteration
Value Iteration from MDP
- value_iteration
Monte Carlo Prediction
- First Visit-MC
- Every Visit-MC
Temporal Difference
N-Step Temporal Difference
Temporal Difference-Lambda
SARSA
Q-Learning

Available Utils

common_utils:
- plot_policy
- plot_state_value_function
- evaluate_policy
- improve_policy
- probability_success
- mean_return
- print_policy_success_stats
- generate_random_policy
- rmse
- decay_schedule
- generate_trajectory
- generate_trajectory_epsilon_greedy
- print_action_value_function
- get_policy_metrics
- moving_average
- choose_epsilon_greedy_action

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

No packages published

Languages