Coursework (1)
Exercise 1
Please provide several main optimization forms in reinforcement learning
不是列举优化方法,必须写出优化目标和约束条件,可以选择一个 RL 中会用到的算法。优化目标和约束条件建议表达为 General Formulation of The Optimization Problem。
Exercise 3
不能直接去掉向下取整的符号,也不能简单地说约等于,需要通过放缩进行处理。