关于episode说法错误的是
A.一个episode就是一个从起始状态到结束的经历
B.蒙特卡洛方法需要很少的episode就可以得到准确结果
C.TD方法每次更新不需要使用完整的episode
D.蒙特卡洛的方法需要等到整个episode结束才能更新
- · 有3位网友选择 C,占比37.5%
- · 有3位网友选择 A,占比37.5%
- · 有2位网友选择 B,占比25%
A.一个episode就是一个从起始状态到结束的经历
B.蒙特卡洛方法需要很少的episode就可以得到准确结果
C.TD方法每次更新不需要使用完整的episode
D.蒙特卡洛的方法需要等到整个episode结束才能更新
下列关于事故的说法错误的是()
A.施工人员违章指挥,不应指派抹灰工进行操作
B.项目负责人没有亲自指挥
C.作业时没有对升降装置进行认真检查,设备带“病”作业
D.违反高处作业规定,支设的水平安全网在高处作业未完成时拆除
B.心悸伴发热甲状腺机能低下比伴甲状腺机能亢进更常见
C.二尖瓣狭窄的病人突然心悸通常是由于心律失常引起
D.青年男子不规则的心悸常由室上性心动过速引起
E.心悸与精神因素有关
A、Sarsa是off-policy,而Q-learning是on-policy
B、Sarsa是on-policy,而Q-learning是off-policy
C、Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了
D、Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
A、蒙特卡洛方法计算值函数可以采用First-visit方法
B、蒙特卡洛方法方差很大
C、蒙特卡洛方法计算值函数可以采用Every-visit 方法
D、蒙特卡洛方法偏差很大
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!