Offline Reinforcement Learning

Adaptive Pessimism via Target Q-Value for Offline Reinforcement Learning

Offline reinforcement learning (RL) methods learn from datasets without further environment interaction, facing errors due to …

Jie Liu, Yinmin Zhang, Chuming Li, Yaodong Yang, Yu Liu, Wanli Ouyang

Contextual Transformer for Offline Meta Reinforcement Learning

The pretrain-finetuning paradigm in large-scale sequence models has made significant progress in natural language processing and …

Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung, Haifeng Zhang, Jun Wang, Yali Du, Yaodong Yang

Offline Pre-trained Multi-agent Decision Transformer

Offline reinforcement learning leverages previously collected offline datasets to learn optimal policies with no necessity to access …

Linghui Meng, Muning Wen, Chenyang Le, Xiyun Li, Dengpeng Xing, Weinan Zhang, Ying Wen, Haifeng Zhang, Jun Wang, Yaodong Yang, Bo Xu