人工智能研究院杨耀东课题组ACL 2025最佳论文:揭示大模型存在“抗改造”基因,现有后训练对齐范式面临失灵预警

2025年7月,研究团队论文“Language Models Resist Alignment: Evidence From Data Compression”荣获ACL 2025年度最佳论文奖。
该研究首次从压缩理论视角揭示大模型并非可以任意塑造的“白纸”,其参数结构中存在一种“弹性”机制——该机制源自预训练阶段,具备驱动模型分布回归的结构性惯性,使得模型在微调后仍可能“弹回”预训练状态,进而抵抗人类赋予的新指令,导致模型产生抗拒对齐的行为。这意味着对齐的难度远超预期,后训练所需的资源与算力可能不仅不能减少,反而需要与预训练阶段相当,甚至更多。这一发现颠覆了“99%预训练+1%后训练”的主流对齐范式认知,为AI安全与对齐研究带来根本性挑战与新方向。