CS计算机代考程序代写 algorithm 【摘要】针对自动驾驶车辆换道过程中存在的车辆规划轨迹与人类驾驶员决策轨迹偏差较大问题,开发了一种基于驾

【摘要】针对自动驾驶车辆换道过程中存在的车辆规划轨迹与人类驾驶员决策轨迹偏差较大问题,开发了一种基于驾

驶员轨迹特征学习的换道轨迹规划算法。采集驾驶员换道轨迹曲线函数特征,在轨迹采样及成本优化相结合的轨迹规划

基础上,采用最大熵逆强化学习策略迭代更新成本函数权重,并依据学习的成本函数筛选备选采样轨迹,生成反映驾驶员

轨迹特征的自动驾驶车辆换道轨迹。试验结果表明,进行驾驶员特征学习后的换道轨迹基本包含在驾驶员换道轨迹区域

内,且轨迹特征更为接近人类驾驶员换道轨迹特征,更能反映驾驶员主观感受。

主题词:轨迹规划 驾驶特征 成本优化 逆强化学习

中图分类号:U469.79 文献标识码:A DOI: 10.19620/j.cnki.1000-3703.20200706
Lane Changing Trajectory Planning of Autonomous Vehicle Based

on Driving Characteristic Learning
Huang Hui, Wei Hanbing

(Chongqing Jiaotong University, Chongqing 400074)
【Abstract】Large deviation between vehicle planning trajectory and driver decision trajectory exists in the process of

lane change for autonomous vehicles. To solve this problem, we develop a lane change trajectory planning algorithm based
on learning trajectory feature. Based on the sampling and cost optimization combination of trajectory planning, the algorithm
collects the driver’s lane changing trajectory function characteristics. By means of the maximum entropy inverse
reinforcement learning, cost function weight is updated iteratively. According to the achieved cost function, the alternative
sampling paths are designated to generate lane changing trajectory of autonomous vehicles which reflect the characteristics
of drivers’ trajectories. The experimental results show that the lane changing trajectory after learning of drivers’
characteristics are incorporated in the lane changing trajectory area of the driver. The trajectory’s features are more similar
to the real lane changing trajectory’s features of the driver, and can reflect driver’s subjective feeling

Key words: Trajectory planning, Driving characteristics, Cost optimization, Inverse
reinforcement learning

黄辉 隗寒冰

(重庆交通大学,重庆 400074)

*基金项目:重庆市技术创新与应用发展重大专项(cstc2019jscx-zdzzx0014)。

基于驾驶特征学习的自动驾驶车辆换道轨迹规划*

汽车技术 · Automobile Technology

1 前言

自动驾驶车辆需要在换道轨迹规划时反映拟人化

需求,以提高行驶平顺性及乘坐舒适性,避免换道过程

中引起驾乘人员不适。因此,学习驾驶员轨迹特征在自

动驾驶车辆换道轨迹设计中具有十分重要的现实意义。

国内外学者对车辆轨迹规划问题已进行了广泛研

究[1]。规划方法按照原理可大致分为图搜索、数值优化、

插值法和采样法。目前,基于轨迹采样与成本函数优化

相结合的方法作为主流的轨迹规划方法被广泛应用于

自动驾驶车辆。如M. Werling等[2]以轨迹采样与成本函
数优化相结合的方法规划轨迹,实现各换道场景的轨迹

生成。该方法规划的换道轨迹基本满足换道行为功能

需求,但忽略了驾驶员驾驶行为特征因素[3]。

在换道轨迹规划中考虑驾驶员换道特征,即拟人化

换道轨迹规划,是近年来研究的热点。如黄晶[4]等运用

K均值聚类法将驾驶风格分类,结合舒适性约束及换道
行为数据进行不同驾驶风格换道轨迹规划,但忽略了轨

迹曲线特征。Schnelle等[5]提出了组合驾驶员模型和确
定驾驶员期望路径的方法,对驾驶员模型和所需路径参

网络首发时间:2020-12-08 11:07:35
网络首发地址:https://kns.cnki.net/kcms/detail/22.1113.U.20201204.1612.002.html

黄辉,等:基于驾驶特征学习的自动驾驶车辆换道轨迹规划

数进行优化,仅考虑了驾驶员的横向控制,无法反映驾

驶员的速度特征及行驶轨迹曲率特征。X. He等[6]提出
从自然驾驶数据中学习仿人轨迹规划方法,以 softmax
函数建立轨迹的概率模型,但该方法存在奇异值问题与

学习特征上的局限。

机器学习方法被用来从人类演示的数据中学习成

本函数或参数设置,研究成果同样应用于自动驾驶。

Abbeel等[7]通过逆强化学习策略学习驾驶特征。Ziebart
等[8]为了解决逆强化学习中存在的奇异值问题,将逆强

化学习扩展到基于最大熵的方法。但这些研究都限于

全局路径规划问题,而且更偏向于驾驶员路径选择的离

散空间问题。Kuderer等[9]运用最大熵逆强化学习策略
学习轨迹特征后应用到局部轨迹规划中,在学习过程中

通过最大似然求解二维空间中六自由度无穷轨迹的最

大熵模型,该方法存在计算量庞大的弊端。

为生成反映驾驶员特征的换道轨迹,本文开展基

于最大熵逆强化学习策略的换道轨迹特征学习方法研

究,以轨迹采样方法为基础,对学习过程中的计算进行

简化,通过轨迹采样与成本优化相结合的方式规划换

道轨迹。

2 基于逆强化学习的换道轨迹规划

轨迹采样与成本优化相结合的方法主要思路是依

据设计的成本函数筛选采样轨迹以生成最优轨迹。为

了平衡轨迹规划的效率、舒适性、安全性,成本函数项权

重需要基于专家经验设计,调试过程繁杂,具有一定的

局限性。为解决目前存在的弊端,生成与驾驶员换道特

征相匹配的轨迹,本文通过逆强化学习方法从驾驶员自

然换道轨迹数据中迭代学习成本函数权重,并基于轨迹

采样的方法优化学习过程中的迭代计算,使自动驾驶车

辆能够规划出与人类驾驶员驾驶特征相近的换道轨

迹。基于逆强化学习的换道轨迹规划流程如图1所示。

图1 基于逆强化学习的换道轨迹规划流程

基于逆强化学习的换道轨迹规划由轨迹规划、驾驶

特征建模及逆强化学习过程组成。在某一轨迹规划周

期τ中,轨迹规划部分首先依据换道规划起点、终点的车

辆坐标及其关于时间的一阶微分及二阶微分状态,通过

轨迹采样的方式,生成备选换道轨迹序列 TS=(Ts1,Ts2,
Ts3,…,Tsn),驾驶特征建模部分采集驾驶员换道轨迹离
线坐标点,以多项式曲线拟合方式构建驾驶员换道轨

迹 TD=(TD1,TD2,TD3,…,TDn),依据设计的轨迹特征函数向
量 f(TD)计算驾驶员换道轨迹各成本项的经验特征值
f͂ 。为解决轨迹分布中存在的奇异值问题[8],将轨迹特

征函数向量 f(T)与备选轨迹序列TS依据最大熵原理构
建轨迹的最大熵模型 pMaxEnt,其中T为任意轨迹集输入,

再依据最大熵模型求解各备选轨迹的期望特征值 Ep

[f]。通过梯度变化迭代调整轨迹特征函数中的各成本
项权重向量系数λ,使得经验特征值 f͂ 与期望特征值Ep

[f]尽可能接近:
argmin

λ  Ep[ ]f -~f (1)
当期望特征值Ep[f]与经验特征值 f͂ 的差值收敛于

最小值时,便得到表征驾驶员轨迹特征的权重向量

λImi。依据λImi分配各成本函数项权重比,重新调整驾驶

员特征成本函数CImi,最后通过CImi筛选采样轨迹序列,

以生成与驾驶员换道特征相匹配的换道轨迹。

3 轨迹规划方法

对自动驾驶车辆局部轨迹规划问题进行简化,同

时便于轨迹特征函数定义,采用曲线坐标系为参考坐

标系。在结构化道路下进行轨迹规划时,曲线坐标系

通常以道路中心线作为参考线,将驾驶轨迹规划问题

分解为沿道路中心线方向及其切线的法向量方向进行

规划处理,图2所示为笛卡尔坐标系与曲线坐标系的转
化关系。

图2 笛卡尔坐标系与曲线坐标系的转化关系
不同于笛卡尔坐标基准(x,y),曲线坐标系是以车辆

位置与参考线投影点P之间的距离d为纵坐标,以参考

线起始点到投影点P的曲线长度 s为横坐标建立曲线坐

标系基准(s,d)[10]。坐标系之间的映射关系与转化关系表

采样轨迹集

Ts pMaxEnt( )T |λ

最大熵模型 期望特征值

Ep[ ]f

COpt f ( )T

最优成本函数 轨迹特征函数向理
1 3

argmin
λ  Ep[ ]f -~f

λ Im i

C Im i

驾驶特征权重向量

驾驶特征成本函数

TD f ( )TD
~
f TIm i

2 演示轨迹 轨迹特征函数向量 经验特征值 包含驾驶特征
换道轨迹

1、轨迹规划部分 2、驾驶特征建模部分 3、逆强化学习过程

x

y

s

d

P

Lref

示为:

ì

í

î

ïï
ïï

( )x,y ,Lref ↔ ( )s,d
x = ( )x,y T = x( )s( )t ,d( )t
x( )s( )t ,d( )t = r( )s( )t ,d( )t nr( )s( )t

(2)

式中,x为笛卡尔坐标系下的车辆位置坐标向量;s(t)、
d(t)分别为 t时刻车辆位置到参考线 Lref上投影点的弧
长距离与法向距离;nr(s(t))为投影点的单位法向量;
r(s(t))为投影点上的位置向量。

为保证换道轨迹曲率、速度、加速度上的连续性及

轨迹边界条件的完整性,采用五次多项式曲线拟合换道

轨迹。根据峰值加速度准则,五次多项式函数比其他路

径函数更具舒适性优势[11]。在任意 t时刻,换道轨迹可

以表示为:

L:
ì
í
î

d( )t = a0 + a1t + a2t2 + a3t3 + a4t4 + a5t5
s( )t = b0 + b1t + b2t2 + b3t3 + b4t4 + b5t5 (3)

式中,a0~a5与 b0~b5分为 d、s方向上五次多项式函数的
系数。

当换道轨迹的起点、终点状态确定时,可依据五次

多项式换道轨迹推导出其一阶微分及二阶微分状态。

起点状态由换道时的纵向速度及偏离道路中线距离决

定,终点状态依据换道任务的纵向偏移距离及目标车速

定义。在一个规划周期τ中,五次多项式的系数可由起

点、终点状态及其一阶、二阶微分状态求解得到,规划周

期τ由规划起点时刻 ts与规划终点时刻 te决定。

在每个规划周期中,依据 s、d方向起始状态及终点

状态的采样,依据五次多项式函数便可规划出一系列备

选换道轨迹序列集TS。

4 驾驶特征建模

通过采样方法生成备选换道轨迹集后,还需定义合

理的成本函数用于备选换道轨迹筛选。本文的研究目

标是从驾驶员换道轨迹中学习驾驶轨迹特征,因此,成

本函数应为考虑更加全面且能表征驾驶员特征的成本

函数项,同时为逆强化学习过程需求定义合理的特征函

数。考虑如下成本函数项:

在整个换道轨迹中,以轨迹曲线函数在任意一点的

三阶微分量表征换道过程中的冲击度特征 J,整个换道

轨迹 s、d方向上的冲击度特征成本CJ定义为:

ì
í
î

ï

ï

CJ( )s( )t = ∫tstes2( )t dt
CJ( )d( )t = ∫tsted2( )t dt (4)

以轨迹曲线在某一点上的二阶微分量表征换道过

程中的加速度特征 a,整个换道轨迹 s、d方向上的加速

度特征成本Ca定义为:

ì
í
î

ï

ï

Ca( )s( )t = ∫tste s̈2( )t dt
Ca( )d( )t = ∫tsted̈2( )t dt (5)

以换道轨迹曲线上某一点处的曲率为曲率特征κ,

整个换道轨迹上的曲率特征成本Cκ定义为:

Cκ( )s( )t ,d( )t = ∫tsteκ2( )t dt (6)
以换道过程中 s方向实际速度与期望速度偏差量

vdev定义特征成本Cvdev:

Cvdev( )s( )t = ∫tste || ṡ( )t – vdes 2dt (7)
以换道轨迹偏离道路中线 Lref(τ)的距离 ddev定义特

征成本Cddev:

Cddev( )d( )t = ∫tste ||d( )t – Lref( )t 2dt (8)
通过将设计的各成本项整合,同时分配权重系数便

构成完整的成本函数COpt:

COpt =∑
n = 1

N

λN·C (9)
式中,λN 为每个成本项的系数权重向量;N 为成本

函数的最大指数系数;C=(CJ(s(t)),CJ(d(t)),Ca(s(t)),Ca(d(t)),
Cκ(s(t),d(t)),Cvdev(s(t)),Cddev(d(t)))为成本项向量。

本文通过逆强化学习的方法学习得到权重向量系

数λ,实现各成本项还原驾驶员特性分配。依据设计的

成本函数定义逆强化学习中的特征函数向量 f:

f = [ fJ( )s( )t , fJ( )d( )t , fa( )s( )t , fa( )d( )t , fκ( )s( )t d( )t ,
]fvdev( )s( )t , fddev( )d( )t

(10)

式中,fJ(s(t))、fJ(d(t))分别为 s、d方向上的冲击度特征函
数;fa(s(t))、fa(d(t))分别为 s、d方向上的加速特征函数;
fκ(s(t),d(t))为 s、d 方向上的曲率特征函数;fvdev(s(t))为 s
方向上的速度偏差特征函数;fddev(d(t))为 d 方向上的
距离偏差特征函数。

依据驾驶员多次自由换道情况下的离线换道轨迹

点,拟合出一系列换道轨迹曲线 TD=(TD1,TD2,TD3,…,TDn),
依据特征函数向量 f计算出逆强化学习过程中驾驶员

轨迹经验特征值 f͂ :

f͂ = 1
N∑i = 1

N

f ( )TD (11)

5 逆强化学习

逆强化学习的目的是生成与演示结果相似的轨迹,

以特征值为相似性的评判度量。逆强化学习的关键是

找到预期的参数λ使得期望特征与观察到的经验特征

相匹配。以采样轨迹为基础,构建轨迹的最大熵概率模

黄辉,等:基于驾驶特征学习的自动驾驶车辆换道轨迹规划

型pMaxEnt,优化问题的最大熵模型有如下形式:

p( )TS|λ = 1
Z( )λ

exp[ ]-λT f ( )TS (12)
式中,Z(λ)为满足归一化条件的正规化因子,归一化条件为:


TS

p( )TS dTS = 1 (13)
将λTf(TS)解释为成本函数,与轨迹规划部分的成本

函数COpt相对应,可以理解为驾驶员更有可能选择成本

较低的轨迹进行换道轨迹规划。权重向量参数λ的解

析解通常无法计算,但可以计算关于λ的拉格朗日函数

的梯度,该梯度是期望值与经验特征值的差值:

∇Lp( )TS|λ =Epλ( )f ( )TS – f͂ (14)
通过对演示轨迹TD求对数似然函数得到:

Lp
λ
( )TD = log 1

Z( )λ
exp( )-λT f͂ (15)

求其关于λ的一阶微分为:


∂λLpλ( )TD = ∫

T

pλ( )T f ( )T dT – f͂
=Ep

λ
( )f ( )T – f͂

(16)

式中,pλ(T)为λ权重下关于任意轨迹输入的概率。
通过基于采样的轨迹生成方法,可以简捷地计算出

期望特征值:

Ep
λ
( )f ( )T = ∫

T

pλ( )T f ( )T dT (17)
选择合适的采样轨迹数量可以优化逆强化学习过

程中的计算量。基于特征匹配的最大熵分布问题等价

于假设指数族分布时训练数据的最大似然问题,从而将

目标转化为找到符合预期的一组演示的特征分布。找

到期望的分布意味着计算参数权重向量λ,使得期望特

征值与经验特征值相匹配。参数向量λ无法求解,但可

以根据这些参数计算梯度,从而应用基于梯度的优化。

梯度调整优化过程通过计算特征函数的全微分,同时控

制步长使函数到达极小值。对于部分特征项不可解析

的计算梯度,可采用数值积分及解析导数相结合的方式

计算。曲率特征梯度的近似求解公式为:

∇fκ( )TS = ∇∫tsteκ2( )TS,τ dτ≈∑
i = 0

n ∇κ2( )TS, ts + iΔt (18)
式中,Δt为在规划周期τ内的采样周期。

基于逆强化学习方法学习驾驶员换道轨迹特征的

权重分配算法流程如图3所示。
通过逆强化学习过程学习到权重向量λ后,依据λ

为成本函数COpt各成本项分配权重筛选备选轨迹,便实

现了包含驾驶员特征的换道轨迹生成。

6 试验验证与结果分析
为验证本文提出的基于逆强化学习的换道轨迹规

划的有效性,在“行远”自动驾驶车辆试验平台[12]上开展

试验,分别执行驾驶员换道轨迹点采集与实时换道轨迹

规划及跟踪控制任务。驾驶员换道轨迹点处理及逆强

化学习过程均离线完成。试验平台硬件配置如图 4所
示:感知系统由双目摄像头及激光雷达构成;定位系统

配置差分GPS用于实现厘米级车辆定位与导航;所有算
法部署在车载工控机上以实现车辆的感知、定位、决策、

规划及控制。

图3 学习驾驶员换道特征分配权重算法流程

图4 “行远”自动驾驶车辆试验平台
以重庆交通大学校园试验区作为试验场景分别进

行驾驶员 1、驾驶员 2换道轨迹点的采集工作。试验场
地如图 5a所示,其为标准单向双车道场地。驾驶员进
行自由换道操作,仅收集驾驶员从右向左的换道轨迹,

且驾驶员每次换道仅跨越 1个车道位置。考虑校园试
验场场景,规定驾驶员理想换道车辆速度为 35 km/h。
为了提高轨迹的随机性,不预先告知驾驶员采集任务,

仅告知其需控制车速在35 km/h附近自由换道操作。

黄辉,等:基于驾驶特征学习的自动驾驶车辆换道轨迹规划

开始

差值矩
阵 Ddev

演示轨
迹 TD

任意权重
向量 λ

采样轨
迹 TS

f͂ = 1
N∑i = 1N f ( )TDi COpt =∑n = 1

N

λN·C

计算期望特征值
Ep[ ]f

Ddev =Epλ( )f ( )T – f͂

argmin
λ
Ddev( )1,m

依据梯度调整权
重向量 λ

结束

RGB相机RGB相机

GNSS

V2X

单线雷达

逆变器

锂电池 工控机

电源模组

GNSS天线

激光雷达

激光雷达

共采集到2名驾驶员有效换道轨迹20条,平滑滤波
处理后驾驶员换道轨迹如图5b、图5d所示。2名驾驶员
均具有 3~5年驾龄,能够稳定执行换道操作,依据换道
轨迹集边界定义驾驶员换道区域如图 5c、图 5e所示。
在曲线坐标系下,依据换道轨迹点横、纵坐标以及每个

轨迹点的时间序列,拟合 s、d方向上的五次多项式函

数,并依据式(11)计算出驾驶员各换道特征经验特征
值,统计结果如表1所示。相比于驾驶员换道轨迹纵向
相关特征,横向相关特征更为显著。

(a)校园试验区

(b)驾驶员1换道轨迹集

(c)驾驶员1换道区域

(d)驾驶员2换道轨迹集

(e)驾驶员2换道区域
图5 校园试验场及驾驶员换道轨迹

将驾驶员换道轨迹经验特征值代入逆强化学习过

程中进行迭代学习,如图 6所示,基于梯度下降的权重
系数调整策略导致特征值差值曲线出现微小振幅,而非

单调下降。在经过接近25次迭代后,2位驾驶员的经验

特征值向量与期望特征值向量的差值基本收敛。由于

轨迹规划基于采样的方式完成,仅能在轨迹集中筛选出

最接近驾驶特征的某条轨迹,导致特征差值不为零。依

据学习得到的权重向量λ,对规划系统的成本函数权重

进行重新分配调整,依据调整更新后的成本函数筛选实

时规划的备选轨迹。

表1 驾驶员换道特征值

图6 特征值差值迭代过程
图7所示为成本权重更新前、后实时轨迹规划对比

情况。从图7中可以看出:未调整权重情况下实时车辆
备选规划轨迹序列大部分偏离 2位驾驶员的换道轨迹
区域;学习驾驶员 1换道特征后,车辆实时规划的换道
轨迹基本包含在驾驶员1换道区域内,部分偏离驾驶员
2换道区域;学习驾驶员2换道特征后,车辆规划的换道
轨迹基本包含在驾驶员2换道轨迹区域内。

(a)未调整权重备选轨迹序列

(b)未调整权重换道轨迹

黄辉,等:基于驾驶特征学习的自动驾驶车辆换道轨迹规划

车辆行驶方向 驾驶员1换道区域 驾驶员2换道区域

5 10 15 20 25 30 35
X/m

4

2

0

Y
/m

5 10 15 20 25 30 35
X/m

4

2

0

Y
/m

5 10 15 20 25 30 35
X/m

4

2

0

Y
/m

5 10 15 20 25 30 35
X/m

4

2

0

Y
/m

驾驶
员编

1
2

J(s(t))/m·s-3
0.219
0.207

J(d(t))/m·s-3
3.595
3.161

a(s(t))/m·s-2
0.171
0.153

a(d(t))/m·s-2
1.634
1.476

κ(s(t),d(t))/m-1
2.667
2.291

Vdev(s(t))/m·s-1
6.862
6.519

Ddev(d(t))/m
193
179

10 20 30 40 50
迭代次数/次

100
80
60
40
20
0


E
p[

]
f

-f͂

学习驾驶员1
学习驾驶员2

5 10 15 20 25 30 35
X/m

6
5
4
3
2
1
0

Y
/m

0 5 10 15 20 25 30 35
X/m

4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0

-0.5

Y
/m

驾驶员1换道区域
驾驶员2换道区域
未调整权重规划轨迹

(c)学习驾驶员1特征备选轨迹序列

(d)学习驾驶员1特征换道轨迹

(e)学习驾驶员2特征备选轨迹序列

(f)学习驾驶员2特征换道轨迹
图7 成本权重更新前、后轨迹规划对比

如图 8、图 9所示,将成本权重更新前、后换道轨迹
特征对比情况以百分率形式表现,即以驾驶员特征为基

准。自动驾驶车辆局部轨迹规划系统在均等权重比下,

s方向上的特征偏离基准较小,能较好地匹配,而在d方

向上,调整前特征偏离基准较大。学习驾驶员特征后,

特征偏离情况降低,向驾驶员特征靠近。对比调整前、

后,表征乘员舒适度的纵向特征 J与加速度特征 a指标

明显降低,且趋近于人类驾驶员换道操作水平,改善了

换道过程中的乘员舒适性体验。

将驾驶员换道轨迹曲线及换道特征进行对比,结合

成本权重更新前、后的试验结果可以发现:在均等成本

函数权重下生成的轨迹部分偏离驾驶员换道轨迹区域,

相对于驾驶员换道轨迹曲线,曲率变换更为剧烈,换道

轨迹曲线特征除纵向特征外,较驾驶员各特征相差较

远;通过逆强化学习方法更新成本权重后的规划轨迹基

本包含在驾驶员换道轨迹内,换道轨迹曲线各特征与驾

驶员特征相近,更能反映驾驶员主观感受。

图8 学习驾驶员1特征对比

图9 学习驾驶员2特征对比
7 结束语

本文采用轨迹采样及成本优化相结合的轨迹规划

方法设计了自动驾驶车辆轨迹规划算法。考虑换道规

划过程中的驾驶员主观感受,运用最大熵逆强化学习策

略从驾驶员换道轨迹中学习轨迹特征分配,并将学习得

到的权重向量用于成本函数权重分配,依据更新后的成

本函数在采样轨迹中筛选匹配,最终生成与驾驶员换道

轨迹特征相近的换道轨迹。试验结果表明,本文开发的

基于逆强化学习的换道轨迹能较好地包含在驾驶员换

道区域内,且轨迹特征与驾驶员轨迹特征相近,即满足

拟人化驾驶需求。

参 考 文 献

[1] 孙浩, 邓伟文, 张素民, 等. 考虑全局最优性的汽车微观动
态轨迹规划[J]. 吉林大学学报(工学版), 2014, 44(4): 918-
924.

[2] WERLING M, ZIEGLER J, KAMMEL S, et al. Optimal
Trajectory Generation for Dynamic Street Scenarios in a
Frenet Frame[C]// 2010 IEEE International Conference on
Robotics and Automation (ICRA). IEEE, 2010.

[3] 闫淑德. 基于驾驶习性的智能汽车个性化换道辅助系统
研究[D]. 长春: 吉林大学, 2019.

黄辉,等:基于驾驶特征学习的自动驾驶车辆换道轨迹规划

5 10 15 20 25 30 35
X/m

6
5
4
3
2
1
0

Y
/m

0 5 10 15 20 25 30 35
X/m

4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0

-0.5

Y
/m 驾驶员1换道区域

学习驾驶员1特征换道轨迹
未调整权重规划轨迹
学习驾驶员2特征换道轨迹

5 10 15 20 25 30 35
X/m

6
5
4
3
2
1
0

Y
/m

0 5 10 15 20 25 30 35
X/m

4.0
3.5
3.0
2.5
2.0
1.5
1.0
0.5
0

-0.5

Y
/m 驾驶员2换道区域

学习驾驶员2特征规划轨迹
未调整权重规划轨迹
学习驾驶员1特征规划轨迹

J(s(t
))

200
150
100
50
0



/%

驾驶员1特征基准
学习驾驶员1特征
均等权重规划特征

J(d(
t))

a(s(t
))

a(d(
t))

k(s(t
),d(t

))
V d

ev(s(t
))

D d
ev(d(

t))

J(s(t
))

250
200
150
100
50
0



/%

驾驶员2特征基准
学习驾驶员2特征
均等权重规划特征

J(d(
t))

a(s(t
))

a(d(
t))

k(s(t
),d(t

))
V d

ev(s(t
))

D d
ev(d(

t))

[4] 黄晶, 蓟仲勋, 彭晓燕, 等. 考虑驾驶人风格的换道轨迹规
划与控制[J]. 中国公路学报, 2019, 32(6): 226-239+247.

[5] SCHNELLE S, WANG J M, SU H J, et al. A Driver Steering
Model With Personalized Desired Path Generation[J]. IEEE
Transactions on Systems Man & Cybernetics Systems, 2016,
47(1): 111-120.

[6] HE X, XU D, ZHAO H, et al. A Human- Like Trajectory
Planning Method by Learning from Naturalistic Driving Data
[C]// 2018 IEEE Intelligent Vehicles Symposium (IV). IEEE,
2018: 339-346.

[7] ABBEEL P, NG A. Apprenticeship Learning via Inverse
Reinforcement Learning[C]// 21st International Conference
on Machine Learning (ICML), 2004.

[8] ZIEBART B, MAAS A, BAGNELL J, et al. Maximum
Entropy Inverse Reinforcement Learning[C]// In AAAI
Conference on Artificial Intelligence (AAAI), 2008.

[9] KUDERER M, GULATI S, BURGARD W, Learning Driving
Styles for Autonomous Vehicles from Demonstration[C]//

IEEE International Conference on Robotics and Automation
(ICRA). IEEE, 2015: 2641-2646.

[10] LIM W, LEE S, SUNWOO M, et al. Hierarchical Trajectory
Planning of an Autonomous Car Based on the Integration of
a Sampling and an Optimization Method[J]. IEEE
Transactions on Intelligent Transportation Systems, 2018,
19(2): 1-14.

[11] NOROUZI A, KAZEMI R, ABBASI O R. Path Planning
and Re-Planning of Lane Change Maneuvers in Dynamic
Traffic Environments[J]. International Journal of Vehicle
Autonomous Systems, 2019, 14(3): 239-264.

[12] 龙翔, 高建博, 隗寒冰. 一种自动驾驶汽车系统架构开发
与测试验证[J]. 重庆理工大学学报(自然科学), 2019, 33
(12): 45-54.

(责任编辑 斛 畔)

修改稿收到日期为2020年7月21日。

黄辉,等:基于驾驶特征学习的自动驾驶车辆换道轨迹规划