关于策略梯度的方法说法正确的是
A.只适用于离散动作空间
B.适用于连续动作空间
C.策略梯度的方法与DQN中的目标函数一致
D.策略梯度的方法通过Q值挑选动作
- · 有6位网友选择 B,占比66.67%
- · 有2位网友选择 C,占比22.22%
- · 有1位网友选择 A,占比11.11%
A.只适用于离散动作空间
B.适用于连续动作空间
C.策略梯度的方法与DQN中的目标函数一致
D.策略梯度的方法通过Q值挑选动作
B.学习策略是学习者制定的学习计划或方案,由大量的规则、技能和方法步骤构成,可以是学习的思路与方法,也可以是具体的活动或技巧
C.在学习过程中,学习策略的主要作用是对学习者学习活动进行自我调节和控制,需要学习者具备一定的元认知能力,与此同时,学习策略对学习活动进行调节和控制又是以学习者的认知策略为支撑的,是通过学习方法的调用来实现的
D.学习策略的种类繁多,不同的学习策略针对的任务不同,但对学习目标的达成作用几乎相同,使用的范围和程序也基本相同
B、风险分散策略的成本主要是分散投资过程中增加的各项交易费用
C、风险对冲的局限性在于其是一种消极的风险管理策略
D、风险补偿是一种事后的损失补偿策略D、要创建学习型组织
B.拉式策略是企业运用非人员推销方式把顾客拉过来,使其对本企业的产品产生需求以扩大销售
C.推式策略是企业运用网络营销的方式把产品推向市场
D.推式策略和拉式策略虽然策略不同,目标却是相同的
B.失配策略在一开始往往会在一定程度上影响知识的获得
C.匹配策略可以弥补学习方式上的欠缺
D.失配策略可以弥补学习方式上的欠缺
A、Sarsa是off-policy,而Q-learning是on-policy
B、Sarsa是on-policy,而Q-learning是off-policy
C、Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了
D、Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
A、蒙特卡洛方法计算值函数可以采用First-visit方法
B、蒙特卡洛方法方差很大
C、蒙特卡洛方法计算值函数可以采用Every-visit 方法
D、蒙特卡洛方法偏差很大
A、网络最开始使用卷积神经网络或全连接网络,目的是为了提取图像特征信息
B、对于atari游戏中,一般将连续4帧图像放在一起作为一个state送到神经网络中
C、网络的输出是动作
D、网络的输出是Q值
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!