Trong học tập củng cố, chúng tôi muốn tìm một chính sách tối đa hóa lợi nhuận dự kiến.Sự trở lại là một chức năng của trạng thái và hành động được thực hiện.Chúng ta có thể viết trở lại như:
$$ r (s, a) = \ sum_ {t = 0}^{\ infy} \ gamma^t r (s_t, a_t) $$
Trong đó $ \ gamma $ là một yếu tố giảm...