%I thought what I'd do was I'd pretend I was one of those deaf-mutes, or should I?
clear all;
%风速初始化
Windyworld.windx=zeros(7,10);
Windyworld.windy=zeros(7,10);
Windyworld.windy(:,4:9)=Windyworld.windy(:,4:9)+1;
%%Windyworld.windy(:,7:8)=Windyworld.windy(:,7:8)+1;
targetxy=[6,8]; %!!注意:第一个坐标为y坐标,第二个坐标为x坐标
alpha=0.5;
gamma=0.9;
lambda=0.6;
Tloop=6000; %总学习循环次数
mark=zeros(1,Tloop); %记录是否成功
%迭代为二重时间循环
Q_func=zeros(7,10,4); %!!三维值函数矩阵:(z=1:+x)(z=2:-x)(z=3:+y)(z=4:-y)
Q_func(:,:,1)=0.2; %size(B),ndims(B)
Q_func(targetxy(1),targetxy(2),:)=0; %目标值的所有Q函数始终为0
for Ts=1:Tloop %Ts=study time
%单次运动初始化
rolexy=[4,1];
E_sa=zeros(7,10,4);
result(Ts).Q_func=zeros(7,10,4);
result(Ts).trace=zeros(40,3);
result(Ts).trace(1,:)=([1,rolexy(1),rolexy(2)]);
for Tm=1:40
%按照策略获得到达下一步的动作
if Tm==1
act=tcegreedy(Ts,Q_func(rolexy(1),rolexy(2),:));
else
act=actnext;
end
nextxy=movement(act,rolexy,Windyworld);
%TD算法进行策略值迭代
%计算reward
if nextxy(1)==targetxy(1)&&nextxy(2)==targetxy(2) %到达目标
reward=5;
else if nextxy(1)<1||nextxy(1)>7||nextxy(2)<1||nextxy(2)>10 %超出边界
reward=-1;
else
reward=0;
end %reward不考虑超出步数的问题
end
%LambdaSarsa方式进行Q函数更新,确定下一步动作的同时更新Q函数
%在nextxy状态下选择动作并计算Qnext
if nextxy(1)<1||nextxy(1)>7||nextxy(2)<1||nextxy(2)>10 %超出边界
Qnext=0;
else
actnext=tcegreedy(Ts,Q_func(nextxy(1),nextxy(2),:));
Qnext=Q_func(nextxy(1),nextxy(2),actnext);
end
%计算delta,更新E_sa
delta=reward+gamma*Qnext-Q_func(rolexy(1),rolexy(2),act);
E_sa(rolexy(1),rolexy(2),act)=E_sa(rolexy(1),rolexy(2),act)+1;
%全局更新Q函数
Q_func=Q_func+alpha*delta*E_sa;
E_sa=gamma*lambda*E_sa;
%更新坐标
rolexy=nextxy;
result(Ts).trace(Tm+1,:)=([Tm+1,rolexy(1),rolexy(2)]);
%判断是否跳出本episode
if rolexy(1)==targetxy(1)&&rolexy(2)==targetxy(2)
mark(Ts)=1;
break;
else if rolexy(1)<1||rolexy(1)>7||rolexy(2)<1||rolexy(2)>10
break;
end
end
end
result(Ts).Q_func=Q_func;
end
Avegain=zeros(1,Tloop);
for i=1:Tloop
Avegain(i)=sum(mark(1:i))/i;
end
plot(1:Tloop,Avegain);
忘了面孔的Batou
- 粉丝: 779
- 资源: 15
最新资源
- 机器学习逻辑回归完成员工离职预测
- W25Q64-FLASH
- 基于SpringBoot框架的餐饮商家管理系统设计源码
- 基于C#编程的Minecraft简易材质包生成器设计源码
- 基于深度学习技术的Vue框架在线学生成绩与学业发展分析系统设计源码
- 基于OneOS操作系统的SMx加密算法组件设计源码
- 基于Html语言的LinysBrowser_NEXT鸿蒙浏览器设计源码
- Comsol光子晶体微腔及其傅里叶变分析 包含comsol和fdtd模型,以及matlab代码等
- 基于微信公众号的在线培训平台录播直播系统设计源码
- 物联网智能开关平台服务端硬件端、安卓端和前端源码 源代码 程序 智能开关平台,包含服务端、硬件端、安卓端和前端 关键词:智能家居、物联网开关、远程开关、红外线遥控开关、WIFI继电器、MQTT协议、
- 基于Java、Vue的开放式一物一码溯源防伪系统设计源码
- 潮汐发电,永磁同步发电机,变速运行,采用MTPA控制,独特的弱磁曲线,提高起始转矩,调速范围宽 同时附赠id=0控制永磁同步电机控制 波形理想
- 基于C语言的violin调式转换练琴设计源码
- 基于Vue框架的掌上医院uniapp设计源码
- 基于Vue.js框架的3D翻转效果会员卡/粉丝卡设计源码,包含反光特效与响应式布局
- 图像分割语义分割unet、 deeplab3、FCN、Resnet网络等 基于pytorch框架制作 全套项目,包含网络模型,训练代码,预测代码,直接下载数据集就能跑,拿上就能用,简单又省事
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
- 1
- 2
- 3
- 4
- 5
- 6
前往页