跳转至

Coursework (1)

Exercise 1

Please provide several main optimization forms in reinforcement learning

不是列举优化方法,必须写出优化目标和约束条件,可以选择一个 RL 中会用到的算法。优化目标和约束条件建议表达为 General Formulation of The Optimization Problem

Exercise 3

不能直接去掉向下取整的符号,也不能简单地说约等于,需要通过放缩进行处理。