Machine Learning

Adaptive Pessimism via Target Q-Value for Offline Reinforcement Learning

Offline reinforcement learning (RL) methods learn from datasets without further environment interaction, facing errors due to …

Jie Liu, Yinmin Zhang, Chuming Li, Yaodong Yang, Yu Liu, Wanli Ouyang