时间:2022年03月16日 分类:电子论文 次数:
摘要利用深度强化学习技术实现无信号灯交叉路口车辆控制是智能交通领域的研究热点。现有研究存在无法适应自动驾驶车辆数量动态变化、训练收敛慢、训练结果只能达到局部最优等问题。文中研究在无信号灯交叉路口,自动驾驶车辆如何利用分布式深度强化方法来提升路口的通行效率。首先,提出了一种高效的奖励函数,将分布式强化学习算法应用到无信号灯交叉路口场景中,使得车辆即使无法获取整个交叉路口的状态信息,只依赖局部信息也能有效提升交叉路口的通行效率。然后,针对开放交叉路口场景中强化学习方法训练效率低的问题,使用了迁移学习的方法,将封闭的8字型场景中训练好的策略作为暖启动,在无信号灯交叉路口场景继续训练,提升了训练效率。最后,提出了一种可以适应所有自动驾驶车辆比例的策略,此策略在任意比例自动驾驶车辆的场景中均可提升交叉路口的通行效率。在仿真平台Flow上对TD3强化学习算法进行了验证,实验结果表明,改进后的算法训练收敛快,能适应自动驾驶车辆比例的动态变化,能有效提升路口的通行效率。
关键词:自动驾驶;无信号灯交叉路口;深度强化学习;V2X
1引言
无信号灯交叉路口场景下车辆的调度是自动驾驶领域最困难的任务之一,也是本文研究的主题。早期关于无信号交叉路口自动驾驶车辆的通行策略方面的研究使用的是基于规则的方法。基于规则的决策方法中基于用户体验、交通规则等建立规则库,自动驾驶车辆根据所处环境选择最优行为策略[1]。Lv等[2]提出了一种基于顺序选择的调度机制,为每辆即将到达十字路口的车辆规划路口通行方案,提升了路口的通行效率。
Rios-Torres等[3]将车辆在路口的通行问题建模为无约束最优控制问题,并利用哈密尔顿分析推导出解决方案,该方案降低了油耗,减少了车辆平均行驶时间。Wang等[4]提出了基于分布式共识的协议来解决不同方向车辆汇流的问题,减少了车辆平均行驶时间、能耗和污染物排放,并保证了行车安全。然而,基于规则的方法高度依赖于对车辆和地图、障碍物等环境的精确建模,无法应用到高度复杂和动态的驾驶环境中[5-6]。
深度强化学习利用深度神经网络作为策略函数逼近器,在部署过程中需要的计算时间很少,在解决决策问题时具有天然优势[7]。强化学习已被用于处理交叉路口自动驾驶车辆的通行问题。文献[8-9]使用了分布式自动驾驶车辆在十字路口基于深度Q网络(DeepQNetwork,DQN)的导航策略,可以避免碰撞,提升了通行成功率。然而,DQN只能处理离散低维动作的控制,而自动驾驶车辆的控制是连续高维动作空间问题,需要输出连续的方向盘转角值和加速度值,DQN无法解决[10]。
文献[11]建立了基于DDPG(DeepDetermi-nisticPolicyGradient)深度强化学习算法的端到端无人驾驶决策控制模型,在TORCS平台上通过输入连续的车辆行驶环境感知信息,决策控制模型直接输出加速、刹车、转向等驾驶动作,实现了端到端无人驾驶决策。文献[12]针对DRL算法的无约束探索导致的不安全问题,提出了动作约束安全强化学习方法,此方法在智能体执行决策时针对不安全问题进行了有效的约束,提升了智能体完成任务的成功率。
多自动驾驶车辆环境的强化学习方法研究中,现有的强化学习方法可以分为集中式强化学习[13]和分布式强化学习[14]。集中式强化学习场景下,所有智能体采用联合状态和联合奖励,集中控制设备对所有智能体进行联合控制,文献[15]在有少量自动驾驶车辆和人类驾驶车辆的混合交通流场景中,使用了集中式强化学习的训练方法,以提升所有车辆在环形道路上行驶的平稳性。
然而,由于联合状态和联合奖励的维度会随着智能体数量的增加而增加,因此集中式强化学习控制方法存在训练难度大、对实时通信要求高等缺点。分布式强化学习采用了集中式训练,分布式执行的方法独立采集数据,所有智能体将采集到的数据收集到经验缓冲区统一进行训练,得到最终策略。由于每个智能体都使用局部状态进行独立决策,因此分布式强化学习方法具有可拓展性强、通信成本低的优点。文献[16]在混合自主环境下使用了一种完全分布式的强化学习方法来控制自主驾驶车辆,提升了瓶颈路口的吞吐量。
文献[17]将混合交通高速公路入口匝道合并问题描述为一个多智能体强化学习(Multi-AgentReinforcementLearning,MARL)问题,汇流和直行车道上的自动驾驶车辆共同学习一个策略,使交通吞吐量最大化。文献[18]利用近端策略优化(ProximalPolicyOptimization,PPO)算法来解决自动驾驶车辆在无信号灯交叉路口的通行问题,提升了路口车辆的平均速度。现有的无信号灯交叉路口强化学习算法存在以下缺陷:
1)对无信号灯交叉路口建模理想化,例如文献[18]中车辆做决策时只考虑前后车和自身的状态,使所有车辆只能直行;2)奖励函数设计困难,单一的奖励函数经常会使训练陷入局部最优,训练后达不到预期的效果。本文的主要工作如下:(1)将混合交通流无信号灯交叉路口自动驾驶车辆的通行问题转化为一个分布式强化学习问题,设计了一种混合奖励函数,有效提升了路口吞吐量。
(2)为了解决自动驾驶车辆数量动态变化的问题,本文将自动驾驶车辆比例参数化,训练得到的车辆控制策略能适应不同比例自动驾驶车辆的混合交通流场景。(3)使用了迁移学习的方法,将封闭网络中训练的分布式强化学习策略迁移到开放交叉口网络中,提升了训练效率。
2系统模型
本研究考虑无信号灯交叉路口混合交通流场景,首先构建了一个4向交叉路口,然后给出了自动驾驶车辆及人类驾驶车辆的动力学模型,自动驾驶车辆使用强化学习训练得到策略控制车辆加速度。
在本场景中,每辆自动驾驶车辆都配备有传感设备,并具有短距离通信能力。假设自动驾驶车辆可以通过无线通信、激光雷达等方式获取感知区域内最近的9辆车的状态信息。状态信息包括车道、绝对位置、转向信息和行驶速度。红色车辆代表自动驾驶车辆,蓝色车辆代表自动驾驶车辆感知范围内的车辆,白色车辆代表人类驾驶的车辆。
本文使用智能驾驶员模型(IntelligentDriverModel,IDM)[19]模拟人类驾驶车辆的纵向动力学,该模型假设车辆在限速条件下以最大速度驾驶,同时与前车保持至少1s的制动时间车头间距。
本文研究混合自主交通:同时存在自主驾驶车辆和人类驾驶车辆时,自动驾驶车辆如何优化交通系统。在开放交叉路口,一个好的控制策略应该是在固定的时间间隔内最大化通过交叉口的车辆总数。因此将文献[20]中的Outflow作为性能指标,Outflow表示每小时离开路口的车辆数量。
3基于TD3的强化学习控制策略
本节主要介绍深度强化学习方法的实现。首先将无信号灯交叉路口的通行问题公式化为部分可观测的马尔可夫决策过程(PartiallyObservableMarkovDecisionProcess,POMDP),然后介绍TD3强化学习算法,最后构建状态空间。动作空间和奖励函数求解公式化后的马尔可夫决策过程。分布式强化学习训练时,每辆自动驾驶车辆作为一个智能体独立采集数据,所有智能体将采集到的数据收集到经验缓冲区统一进行训练,得到最终策略。
由于智能体执行决策时只需要获取局部状态信息,所有智能体并行决策,因此称此策略为分布式驾驶策略。本节主要阐述了如何将分布式深度强化学习算法应用到路口车辆控制问题中,并且给出了算法的具体定义及网络结构。针对强化学习算法的3要素,即状态空间、动作空间和奖励函数进行了定义。
迁移学习技术提供了利用从训练一项任务中获得的经验来改进另一项任务的训练方法。强化学习中,常见的迁移学习方式包括共享策略参数θ和状态动作对〈s,a,r,s′〉。开放道路车辆数量高度动态变化,训练效率低。封闭道路中车辆环境相对稳定,训练效率更高。此外,封闭道路中车辆数量固定,从而避免了自动驾驶车辆通过控制道路上的车辆数量来增加奖励。本文研究了在封闭道路上训练得到的控制策略能否通过迁移和微调的方式应用到开放网络环境中。
4实验结果与分析
本节首先介绍实验的仿真环境和相关参数设置,然后在Flow框架[21]中对每个配置执行3次训练策略,选择训练得到奖励最高的策略,并使用100个随机种子在100次仿真中评估其性能,记录相关指标的平均值。
4.1仿真环境与参数设置
实验在开源框架Flow进行,Flow提供了分布式强化学习库(RLlib)[22]和微观交通仿真器(SUMO)[23]之间的接口。在Flow中可以通过SUMO创建各种交通场景,然后利用RLlib提供的强化学习算法为自动驾驶车辆、智能交通灯等训练生成控制策略。本文以IntelCorei7-8700CPU作为硬件环境,所有实验都使用TD3算法用相同的参数集进行训练。各项任务都以回合制方式进行训练,一个回合2000个时隙,每个时隙长为0.5s。
4.2算法性能分析
为了验证本文所使用的深度强化学习策略在车辆控制上应用的有效性,本文分别将混合奖励函数与目前常用的奖励函数、迁移学习与未使用迁移学习的训练方式、通用策略与定制策略进行了性能对比。
4.2.1奖励函数的比较
这里将本文提出的混合奖励函数与目前常用的两种奖励函数在不同的自动驾驶车辆比例下进行了性能比较。在分布式策略中,主要考虑了自动驾驶车辆对路口吞吐量性能的影响,可以看到,渗透率分别为10%,20%,30%,…,100%,与纯人类驾驶车辆相比,路口的通行效率都有显著提升,这证明了训练得到的控制策略在提高交通效率方面的有效性。
深度学习论文发表知识:人工智能深度学习类论文容易发表吗
5、结束语
本文研究了无信号灯交叉路口自动驾驶车辆强化学习控制策略,并提出了一个多目标奖励函数,它不仅鼓励自主车辆尽快到达交叉路口的终点,而且鼓励车辆提高交叉口的整体通行效率。实验结果表明,使用强化学习方法训练得到的驾驶策略,在平均速度、吞吐量方面相比纯人类驾驶车辆都有明显提升。
针对单一渗透率环境下训练出的策略无法适用于渗透率动态变化的环境的问题,本文研究提出了一种能适应不同自动驾驶车辆渗透率的通用控制策略,节省了训练时间和计算开销。本文进一步研究了密度相近时封闭场景中生成的控制器可以转移到开放网络中,并且发现,即使在两个网络中使用不同的奖励函数,迁移学习也可以节省大量的训练时间。
本文通过仿真实验结果证明,当自主车辆的普及率相对较低时,交叉路口的交通拥堵也可以得到缓解。然而,仍然有一些问题没有解决。自主车辆的协同问题是一个典型的多智能体任务。在本文中,使用的是单智能体算法,它不能连接多个代理的动作。下一步的工作是将多智能体强化学习算法应用到车辆控制器中。本文研究只考虑了单车道场景,决策中没有加入换道动作,在下一步的工作中,将考虑在多车道交叉口增加车辆换道动作,并联合控制横向和纵向动作,以提高交叉口吞吐量。
参考文献:
[1]MAM,LIZ.Atime-independenttrajectoryoptimizationap-proachforconnectedandauto-nomousvehiclesunderreserva-tion-basedinte-rsectioncontrol[J].TransportationResearchIn-terdisciplinaryPerspectives,2021,9(5):100312.
[2]LVP,HEYB,XUJ.AnImprovedTrustEvaluationModelBasedonBayesianforWSNs[J].ActaElectronicaSinica,2021,49(5):912-919.
[3]RIOS-TORRESJ,MALIKOPOULOSAA.AutomatedandCooperativeVehicleMergingatHighwayOn-Ramps[J].IEEETransactionsonIntelligentTransportationSystems,2016,18(4):1-10.
[4]WANGZ,KIMBG,KOBAYASHIH,etal.Agent-BasedMo-delingandSimulationofConnectedandAutomatedVehiclesUsingGameEngine:ACooperativeOn-RampMergingStudy[J].arXiv:1810.09952,2018.
[5]MAITLANDA,MCPHEEJ.Quasi-translationsforfasthybridnonlinearmodelpredictivecontrol[J].ControlEngineeringPractice,2020,97(4):104352.1-104352.9.
[6]DINGJ,LIL,PENGH,etal.ARule-BasedCooperativeMer-gingStrategyforConnectedandAutomatedVehicles[J].IEEETransactionsonIntelligentTransportationSystems,2020,21(8):3436-3446.
[7]XIONGL,KANGYC,ZHANGPZ,etal.Researchonbeha-viordecision-makingsystemforunmannedvehicle[J].Automo-bileTechnology,2018,515(8):1-9.
作者:欧阳卓1周思源1,2吕勇1谭国平1,2张悦1项亮亮1