第
36
卷第
8
期
2010
年
8
月
北京工业大学学报
JOURNAL
OF
BEIJING
UNIVERSITY
OF
TECHNOLOGY
Vo
l.
36
No.8
Aug. 2010
基于新的状态划分的多机器人围捕策略
陈阳舟,黄旭,代挂平
(北京工业大学电子信息与控制工程学院,北京
100124 )
摘
要:提出了一种机器人队形矩阵的标识方法,设计了维数更少的状态空间.通过分析不同队形对国捕的利
弊,设计了状态评价及强化函数,减少了由于感知区域划分不精细等因素对学习结果合理性的影响.通过仿真
实验,验证了方法的可行性,并对存在问题进行了分析.
关键词
:Q
学习;队形分布矩阵;多机器人;围捕
中图分类号:
TP24
文献标志码
:A
文章编号:
0254
-0037(2010)08
-1031
-06
在当前的多机器人研究趋势中,社会合作行为的研究是一个重点,而协作围捕又是其中一个非常有趣
且富有挑战性的课题.
对于多机器人协作围捕问题,
Y
amaguchi:
I
J
提出一种反馈控制策略用于协调多机器人的运动,采用队
形矢量来控制群体队形,从而实现了对目标的围捕;
Yamaguchi
等
:2]
提出采用线性自主系统的控制方法产
生群体性状;李淑琴等:
3J
基于动态角色配置思想进行动态团队掏建;韩学东等问提出一种快速收敛的机
器人部队包围"入侵者"的队形分布式控制算法;宋梅萍等
[5J
提出了一种有效降低计算量的编队中子任务
的分配方法
;Cao
等问提出了排队、搜索、包抄、捕捉、预测和方向优化策略,结合状态转换条件保证了任务
的顺利实现.以上方法都是对固定规则的设计研究.
另一种方法是将机器学习引人多机器人协作围捕问题.苏治宝等
[7]
采用
Q
学习的方法更加有效地训
练一组围捕机器人,并通过状态聚类的方法将系统状态归并为较小的集结状态集合,即将基于坐标的连续
状态量离散化.但采用此类方法确定相对位置关系容易使很多实质上相同的队形划分为不同的状态类
别,从而导致重复学习,并且状态维数仍然很高.为了进一步缩小状态空间,本文提出了队形分布矩阵的
标识方法,并且分析了不同队形对围捕的利弊,设计了状态评价以及强化函数,减少了由于感知区域划分
不精细等因素导致的对学习结果合理性的影响.
1
任务描述
假设在一个二维平面中有
n
个围捕机器人(围捕
者)和
1
个逃逸机器人(逃逸者)
.将围捕者(用空心
圆圈表示)的速度分为指向逃逸者(用实心圆表示)
的法向速度和垂直于它的切向速度,如图
1
所示.法
向速度飞的目的在于保持对逃逸者的跟踪或者靠
近.切向速度川的具体方向根据传感范围内左右侧
的围捕者的数量来确定.
本文将设计一个基于学习的决策模块,通过获得
的队形以及个体状态和环境奖励来确定学习策略中
各个分量合适的权值,从而有效地综合各个分量以达
收稿日期:
2008
-0
7-04.
O
Fig.l
•
刊\-r\
/-\、1-
'.1
1'
,,/
O
图
1
速度示意
Sketch
map
of the velocity
基金项目:国家自然科学基金资助项目
(60774037)
;教育部博士点基金资助项目(
20060005014 ) .
作者简介:陈阳舟
(1964
一)
.男,湖北仙桃人,教授,博士生导师.