如题


  • 深度学习
    • 网络结构
      • 线性结构
      • 池化结构
      • 卷积结构
      • LSTM
      • 激活结构
        • sigmoid
        • ReLU
        • tanh
      • 强化学习特定结构
        • Dueling Network
    • 学习方式
      • 监督学习
      • 半监督学习
      • 无监督学习
      • 强化学习
        • 理论
          • 基础理论
          • TD Target
          • 价值学习
          • 策略学习
          • 状态连续:神经网络
          • 动作连续
            • Deterministic Policy Network
            • Stochastic Policy Network
          • 多智能体
        • 训练方式
          • 基于价值
            • Sarsa
            • Q-Learning
            • DQN
          • 基于策略
            • Policy Gradient
            • A2C
        • 优化方法
          • 熵正则
          • 经验回放 (off-policy 适用)
          • Double DQN
          • Target network
          • Multi-step TD Target
          • Dueling network
          • TRPO
          • PPO
    • 参数更新策略
      • SGD
      • 动量
      • Adam