当前位置：网站首页>学习笔记3--规划控制中的机器学习基本思想

学习笔记3--规划控制中的机器学习基本思想

2022-07-17 14:21:00 【FUXI_Willard】

本系列博客包括6个专栏，分别为：《自动驾驶技术概览》、《自动驾驶汽车平台技术基础》、《自动驾驶汽车定位技术》、《自动驾驶汽车环境感知》、《自动驾驶汽车决策与控制》、《自动驾驶系统设计及应用》。
此专栏是关于《自动驾驶汽车决策与控制》书籍的笔记.

3.规划控制中的机器学习基本思想

机器学习算法大致分为：监督学习(如回归、分类)，非监督学习(如聚类、降维)和强化学习；

3.1 强化学习

强化学习关注的是智能体如何在环境中采取一系列行为，从而获得最大的累积回报；一个智能体应该知道在什么状态下应该采取什么行为；强化学习是从环境状态到动作的映射的学习，通常把这个映射称为策略(Policy)；
强化学习常用术语：
- Agent：指训练中的个体，即训练的算法和参数的集合；
- Environment：指Agent所处的环境；
- Episode：指一个完整的训练阶段；从一次训练开始，到这次训练成功或失败结束，是一个Episode；
- Step：指一个Episode当中的操作，每采取一次操作，就是一个Step；
- State：指Agent在每个时刻所面临的状态；
- Action：指采取的操作究竟是什么；
- Value：指当前时刻所能采取的各个动作所具有的价值；
策略(Policy)
- Policy定义了Agent在特定的时间、特定的环境下的行为方式，可以视为从环境状态到行为的映射，常用 $\pi$ 来表示；
- Policy分为两类：确定性的Policy(Deterministic Policy)， $a=\pi(s)$ ；随机性的Policy(Stochastic Policy)， $\pi(a|s)=P[A_t=a|S_t=t]$ ，其中， $t$ 是时间点， $t=0,1,2,\dots,S_t\in{S}$ ， $S$ 是环境状态的集合， $S_t$ 代表时刻 $t$ 的状态， $A_t\in{A}(S_t)$ ， $A$ 是在状态 $S_t$ 下的行为的集合， $A_t$ 代表时刻 $t$ 的行为；
回报信号(Reward Signal)
- Reward是一个标量值，是每个Time Step中环境根据Agent的行为返回给Agent的信号，Reward定义了在该情境下执行该行为的好坏，Agent可以根据Reward来调整自己的Policy，Reward常用R表示；
值函数(Value Function)
- Reward定义的是当下的收益，而Value Function定义的长期的收益，可以看作是累计的Reward，常用v表示；