课程概述
强化学习(Reinforcement Learning)是机器学习的重要分支,通过智能体与环境的交互来学习最优策略。本系列笔记系统梳理强化学习的基础理论和经典算法。
系列文章
🎯 RL基础
- Day 1: 强化学习入门与马尔可夫决策过程
- Day 2: 价值函数与策略评估
- Day 3: 贝尔曼方程与贝尔曼最优方程
- Day 4: 动态规划方法
🚀 经典算法
- Q-Learning算法
- SARSA算法
- 策略梯度方法
- Actor-Critic方法
🔬 深度强化学习
- DQN(Deep Q-Network)
- A3C(Asynchronous Advantage Actor-Critic)
- PPO(Proximal Policy Optimization)
学习路径
从基础概念开始,逐步深入到算法原理和实践应用,培养强化学习的系统思维能力。