强化学习｜学习笔记

强化学习｜学习笔记1 min read (2 min read total)

RL｜day1-sim环境搭建1 min read

RL｜day2-基础概念与贝尔曼方程2 min read

RL｜day3-贝尔曼与贝尔曼最优方程1 min read

RL｜day4-isaaclab1 min read

Overview

课程概述
系列文章
🎯 RL基础
🚀 经典算法
🔬 深度强化学习
学习路径

强化学习｜学习笔记

January 25, 2026

1 min read (2 min read total)

4 subposts

index

课程概述

强化学习（Reinforcement Learning）是机器学习的重要分支，通过智能体与环境的交互来学习最优策略。本系列笔记系统梳理强化学习的基础理论和经典算法。

系列文章

🎯 RL基础

Day 1: 强化学习入门与马尔可夫决策过程
Day 2: 价值函数与策略评估
Day 3: 贝尔曼方程与贝尔曼最优方程
Day 4: 动态规划方法

🚀 经典算法

Q-Learning算法
SARSA算法
策略梯度方法
Actor-Critic方法

🔬 深度强化学习

DQN（Deep Q-Network）
A3C（Asynchronous Advantage Actor-Critic）
PPO（Proximal Policy Optimization）

学习路径

从基础概念开始，逐步深入到算法原理和实践应用，培养强化学习的系统思维能力。

强化学习｜学习笔记 1 min read (2 min read total)
RL｜day1-sim环境搭建 1 min read

RL｜day2-基础概念与贝尔曼方程 2 min read

RL｜day3-贝尔曼与贝尔曼最优方程 1 min read

RL｜day4-isaaclab 1 min read

Comments