标签:"reward"相关文章

重看姚顺雨博士答辩,获得一些新的启发(姚顺武 建议)

在图9.2中,罗比位于格子(0,0),看到当前格子是空的,北面和西面是墙,南面的格子是空的,东面的格子中有一个罐子每次清扫工作罗比可以执行200个动作。 在随机探索的过程中,罗比可能重复撞墙,PM要做的事情是…

重看姚顺雨博士答辩,获得一些新的启发(姚顺武 建议)