人工智能研究院杨耀东课题组ACL 2025最佳论文：揭示大模型存在“抗改造”基因，现有后训练对齐范式面临失灵预警

Last updated on Aug 15, 2025

2025年7月，研究团队论文“Language Models Resist Alignment: Evidence From Data Compression”荣获ACL 2025年度最佳论文奖。

该研究首次从压缩理论视角揭示大模型并非可以任意塑造的“白纸”，其参数结构中存在一种“弹性”机制——该机制源自预训练阶段，具备驱动模型分布回归的结构性惯性，使得模型在微调后仍可能“弹回”预训练状态，进而抵抗人类赋予的新指令，导致模型产生抗拒对齐的行为。这意味着对齐的难度远超预期，后训练所需的资源与算力可能不仅不能减少，反而需要与预训练阶段相当，甚至更多。这一发现颠覆了“99%预训练+1%后训练”的主流对齐范式认知，为AI安全与对齐研究带来根本性挑战与新方向。

报道链接