如题
- 深度学习
- 网络结构
- 线性结构
- 池化结构
- 卷积结构
- LSTM
- 激活结构
- 强化学习特定结构
- 学习方式
- 监督学习
- 半监督学习
- 无监督学习
- 强化学习
- 理论
- 基础理论
- TD Target
- 价值学习
- 策略学习
- 状态连续:神经网络
- 动作连续
- Deterministic Policy Network
- Stochastic Policy Network
- 多智能体
- 训练方式
- 优化方法
- 熵正则
- 经验回放 (off-policy 适用)
- Double DQN
- Target network
- Multi-step TD Target
- Dueling network
- TRPO
- PPO
- 参数更新策略