试题详情

38.下面哪一项是属于强化学习过程中的步骤?

AA.从环境中获取目标的观测信息

BB.提供当前环境下的状态信息

CC.基于预期回报奖惩动作的价值

DD.以上都不是