AI Alignment

Roadmap on Incentive Compatibility for AI Alignment and Governance in Sociotechnical Systems

The burgeoning integration of artificial intelligence (AI) into human society brings forth significant implications for societal …

Zhaowei Zhang, Fengshuo Bai, Mingzhi Wang, Haoyang Ye, Chengdong Ma, Yaodong Yang

Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment

Self-play methods have demonstrated remarkable success in enhancing model capabilities across various domains. In the context of …

Mingzhi Wang, Chengdong Ma, Qizhi Chen, Linjian Meng, Yang Han, Jiancong Xiao, Zhaowei Zhan, Jing Huo, Weijie J Su, Yaodong Yang

Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs

How to align large language models (LLMs) with user preferences from a static general dataset has been frequently studied. However, …

Zhaowei Zhang, Fengshuo Bai, Qizhi Chen, Chengdong Ma, Mingzhi Wang, Haoran Sun, Zilong Zheng, Yaodong Yang