Coursework (1)

Exercise 1

Please provide several main optimization forms in reinforcement learning

不是列举优化方法，必须写出优化目标和约束条件，可以选择一个 RL 中会用到的算法。优化目标和约束条件建议表达为 General Formulation of The Optimization Problem。

不能直接去掉向下取整的符号，也不能简单地说约等于，需要通过放缩进行处理。