Latest News | PAIR Lab: PKU Alignment and Interaction Research Lab

杨耀东研究员作为青年科学家代表出席2025中国AI盛典：青年创想时刻

Thu, 14 Aug 2025 00:00:00 +0000

北京大学人工智能研究院研究员杨耀东博士，作为青年科学家代表受邀出席此次盛典，并在青年创想时刻发言。

8月14日，中央广播电视总台人工智能产业发展大型主题活动《2025中国・AI盛典》在上海徐汇区盛大启幕，这一活动与世界人工智能大会暨人工智能全球治理高级别会议同日开幕。《2025中国・AI盛典》汇聚了产学研各领域的顶尖专家、科学家、产业代表和技术先锋，跨越半个多世纪年龄跨度的行业精英们齐聚一堂，共话人工智能的发展。北京大学人工智能研究院研究员杨耀东博士，作为青年科学家代表受邀出席此次盛典，并在青年创想时刻发言。

活跃在AI前沿的年轻人在想什么？在“青年创想时刻”中，上海交通大学特聘教授、开源鸿蒙项目群技术指导委员会主席陈海波，清华人工智能研究院副院长、生数科技创始人兼首席科学家朱军，复旦大学教授、上海创智学院导师邱锡鹏，上海交通大学特聘教授孔令和，北京大学人工智能研究院研究员、北大-灵初具身联合实验室主任杨耀东，上海创智学院全时导师、同济大学上海自主智能无人系统科学中心研究员冯恺睿分享了对未来AI新应用的期待。

报道链接

人工智能研究院杨耀东课题组ACL 2025最佳论文：揭示大模型存在“抗改造”基因，现有后训练对齐范式面临失灵预警

Sun, 27 Jul 2025 00:00:00 +0000

2025年7月，研究团队论文“Language Models Resist Alignment: Evidence From Data Compression”荣获ACL 2025年度最佳论文奖。

该研究首次从压缩理论视角揭示大模型并非可以任意塑造的“白纸”，其参数结构中存在一种“弹性”机制——该机制源自预训练阶段，具备驱动模型分布回归的结构性惯性，使得模型在微调后仍可能“弹回”预训练状态，进而抵抗人类赋予的新指令，导致模型产生抗拒对齐的行为。这意味着对齐的难度远超预期，后训练所需的资源与算力可能不仅不能减少，反而需要与预训练阶段相当，甚至更多。这一发现颠覆了“99%预训练+1%后训练”的主流对齐范式认知，为AI安全与对齐研究带来根本性挑战与新方向。

报道链接

人工智能研究院戴俊韬、张钊为荣获华为“火花奖”

Tue, 08 Jul 2025 00:00:00 +0000

北京大学人工智能研究院杨耀东课题组戴俊韬、张钊为从4000余名揭榜者中脱颖而出，获得“火花奖”，其中张钊为是十名获奖者中唯一一名学生代表。

7月8日下午，“擦亮火花，共创未来”华为公司2025年“难题揭榜”火花奖北京大学专场颁奖典礼在北京举行。北京大学副校长朴世龙，华为公司董事、2012实验室总裁查钧，出席典礼并为获奖师生颁奖。火花奖，取“火花碰撞”之意。自2021年11月起，华为公司把产业面临的老大难问题总结提炼为科学问题向社会发布，采用难题揭榜的形式，寻找基础理论扎实、有创新解题思路的人才，同时鼓励高校教师踊跃揭榜，解决真问题，真解决问题。

戴俊韬和张钊为揭榜了面向大模型的多元价值观数据生成与对齐评估这一难题。不同文化对同一行为的价值判断可能截然不同——例如，求职场景中，西方强调“个人成就”，而东方更重视“集体协作”。要让大模型真正服务全球用户，就必须解决价值观适配的挑战。传统人工标注方法成本高、覆盖面有限，难以应对多元文化的复杂性。因此，他们探索自动化、规模化的解决方案：通过合成多价值观数据，并建立科学的评估体系，推动大模型在跨文化场景中的精准对齐。

报道链接

人工智能研究院杨耀东老师入选《麻省理工科技评论》中国“AI100青年先锋”

Fri, 04 Apr 2025 00:00:00 +0000

3月29日，在2025中关村论坛年会"未来人工智能先锋论坛"上，《麻省理工科技评论》中国与 DeepTech 联合发布的“AI100青年先锋”榜单揭晓。经过严格评审，首批65位杰出青年学者从众多候选人中脱颖而出，北京大学人工智能研究院杨耀东助理教授入选。

“AI100青年先锋”评选由《麻省理工科技评论》中国与中关村科学城管委会联合发起，旨在发掘和表彰在人工智能领域做出重要贡献的40岁以下中国青年科学家和工程师。该评选采用“人才-技术-产业”立体评估方法，围绕技术创新、产业落地、行业影响、交叉探索、社会责任等维度进行综合考量。

此次评选邀请20余位计算机和机器人领域的专家作为评审顾问，通过专家提名和评审顾问评选，同时在候选人知情及认同的情况下，围绕技术创新、产业落地、行业影响、交叉探索、社会责任等方面的综合考量，遴选出了在中国范围内从事人工智能的青年先锋代表，首批公布入选者共65位。

报道链接

北京大学新闻网：对齐小组align-anything框架提供全模态大模型的训练、数据处理和测评解决方案

Fri, 14 Mar 2025 00:00:00 +0000

随着人工智能领域的快速发展，全模态大模型的训练、数据处理和测评已成为研究热点。人工智能研究院杨耀东团队、北大对齐小组近期开源的align-anything框架，为全模态大模型的对齐提供了全面的解决方案，包括训练、数据处理和测评框架，旨在使全模态大模型与人类意图和价值观对齐。

该框架是一个高度模块化、可扩展且易于使用的对齐训练和评估框架，支持文本、图片、视频和音频等多种模态的模型对齐微调。框架通过解耦模态与算法实现高度的模块化，例如，将多模态模型的加载实现和对齐算法如DPO\GRPO的实现进行分解组合。这种设计使得框架在模态扩展时能够复用相同的代码，便于用户为不同的任务修改和定制代码。

Align-anything框架不仅支持多种对齐算法，还提供了丰富的多模态评测基准，适用于多种推理后端，具有高度的灵活性和可扩展性。框架发布了一个高质量的全模态人类偏好数据集，涵盖文本、图片、视频和音频4种模态，并根据输入与输出的多样性延伸至8种任务。该数据集提供了详细的标注，包括输入和输出中的任意模态，旨在实现跨模态的全面评估和改进。数据集的构建过程包括从多个来源收集回答，使用目前最先进的闭源模型和专业标注人员进行细粒度的偏好标注，并针对各个模态任务特性提供有关回答的语言反馈，确保对响应进行全面评估和优化。

报道链接

北京大学新闻网：“数字与人文节气沙龙”（2025惊蛰篇）举行

Fri, 07 Mar 2025 00:00:00 +0000

2025年3月5日下午，“数字与人文节气沙龙”系列活动第四十期暨人工智能研究院学术沙龙第十一期在百周年纪念讲堂四季庭院举行。沙龙主题是“人工智能中的价值对齐”，旨在探讨如何确保AI的安全性与可控性并思考未来AI发展的方向。

杨耀东指出，人工智能作为当代科技发展的前沿领域，其发展速度之快和影响力之大已远超传统技术。随着人工智能在社会各领域的广泛应用，其决策和行为是否符合人类价值观成为了一个亟待解决的问题。价值对齐，即确保人工智能系统的决策和行为与人类的核心价值观保持一致，已成为数字与人文交叉研究的重要课题。

杨耀东详细介绍了人工智能价值对齐的技术路径，包括预训练与对齐的结合、基于人类反馈的强化学习（RLHF）以及多阶段对齐策略。他指出，尽管技术路径已经明确，但价值对齐仍面临诸多挑战，如价值观的多样性与动态性、模型的复杂性与不可解释性，以及对齐的边界与超对齐问题。当前的人工智能模型大多基于人类的语料进行预训练，这些语料本身反映了人类社会的复杂性和多样性，其中可能包含与人类核心价值观不一致的内容。因此，对齐过程需要在预训练的基础上，通过人类标注员的反馈和强化学习算法对模型进行优化。他认为，未来的发展方向需要加强跨学科合作，建立安全对齐框架，并探索多模态与多领域对齐的可能性。

此次沙龙活动不仅提供了一个跨学科的交流平台，也对人工智能的伦理与安全问题提供了深刻见解。在人工智能快速发展的今天，如何确保人工智能技术符合人类价值观和社会利益，已成为我们必须面对和思考的重要课题。

报道链接

北大人工智能研究院首创多模态DeepSeek-R1，赋能多场景智慧体验

Thu, 06 Mar 2025 00:00:00 +0000

DeepSeek R1不仅能“说”，还能“看”啦！

DeepSeek全面融入校园管理和服务体系，助力智慧校园建设。北大AI院将协同北京大学计算中心，联合部署基于DeepSeek的大模型工具，为校园智能化建设提供技术支持。该工具不仅实现功能分区的优化，还通过本地化专业知识对齐技术，更好地满足师生需求。例如，它可以通过智能辅助教学、个性化学习方案制定等方式，提升教学质量和学习效率。此外，DeepSeek还将为校园管理提供智能化支持，如资源调配、活动策划等，为师生创造更加便捷、高效的校园环境，显著提升校园数字化基础设施的协同效能。

报道链接

新华网：香港推出首个人工智能大模型

Thu, 06 Mar 2025 00:00:00 +0000

由香港特区政府重点创科项目“InnoHK创新香港研发平台”资助的香港生成式人工智能研发中心（HKGAI）25日正式发布HKGAI V1大模型。这是香港首个人工智能大模型，揭开了香港人工智能发展的新篇章。

HKGAI V1支持粤语、英语和普通话，并生成多语言回答，展现了香港与内地在人工智能领域的协同创新能力。目前，该模型已广泛应用于香港特别行政区70个政府部门，助力政府文书辅助应用程序“港文通”的开发与训练，推动香港数字化转型。该系列模型同时作为对话系统，为全球6500万海外华人提供服务。

“北京大学对齐团队在香港本地大模型 HKGAI V1 的研发过程中发挥了重要的作用。”据香港科技大学首席副校长、香港生成式人工智能中心主任郭毅可教授介绍。北京大学人工智能研究院博士生、香港科技大学访问学者吉嘉铭作为团队技术骨干深度参与HKGAI V1研发，团队自主研发的 Align-Anything 框架，在 HKGAI V1的全参数微调和价值观对齐中展现出卓越性能。

报道链接

湖北人工智能通识课第四讲，探讨大模型的未来与可能

Sat, 16 Nov 2024 00:00:00 +0000

2024年11月16日，由湖北省教育厅主办，湖北省人工智能学院、武汉工程大学承办的“智育未来·拥抱智能化时代”湖北高校新生同上人工智能通识课系列活动第四讲在武汉工程大学教育教学综合楼102报告厅精彩开讲

杨耀东博士以“大语言模型现状与困境”为主题，探讨了大语言模型的发展现状、面临的挑战以及未来发展方向。从“Scaling Law”展开，介绍了大模型在算力投入下的爆炸发展和发展潜力，同时从算力后置、增强推理、压缩即智能的视角拓展了大模型未来的发展方向。授课内容丰富、深入浅出、案例生动。课后杨耀东博士详细回答了“大模型 for Science”以及大模型开闭源的问题，介绍了科学研究与大模型结合相关项目实例和开闭源的优缺点。

第四届网络生态治理论坛：大模型的价值观与安全对齐

Fri, 25 Oct 2024 00:00:00 +0000

对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。

以ChatGPT为代表的大模型飞速发展，正在成为驱动新质生产力发展的新动能、人类探索未知的新工具。在显著提升AI模型通用理解和生成能力的同时，也带来了前所未有的安全风险。论坛将围绕大模型安全主题，讨论大模型价值观及其对齐技术的现状、挑战和发展趋势、探讨如何促使大模型更好地遵循人类价值观、服从人类意图、规避各类风险。

2024年，第四届网络生态治理论坛聚焦大模型价值观和安全对齐，非常荣幸地邀请到来自清华大学、北京大学、哈尔滨工业大学、复旦大学等研发团队一线专家和学者，将从心理学、计算机科学等学科角度切入，就大模型价值观及其安全对齐分享精彩的报告。并邀请产业界网络安全专家，在Panel环节开展产学两届深度对话。

在本讲中，杨耀东介绍了RLHF方法的挑战，并阐述了在安全对齐、价值对齐、超级对齐上的一些新方法，新思考。

视频链接

MIT科技评论：将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

Fri, 08 Mar 2024 00:00:00 +0000

这款对齐器能将 GPT-4 的帮助性提升 17.5%、无害性提升 26.9%。

“我们提出对齐器这种对齐新范式之后，获得了许多业界公司的广泛关注。发布仅一个月，多家科技公司已经开始使用这款对齐器的训练范式，来进行多场景的下游应用对齐任务。

对齐器的模型轻量、训练高效及对大模型参数无感的特性，使其有望成为大模型对齐领域中的新的替代者。”北京大学人工智能研究院杨耀东研究员表示。

报道链接

2023北京智源大会-AI安全与对齐论坛： Safe Alignment for LLMs

Sat, 10 Jun 2023 00:00:00 +0000

大语言模型需要对齐人的价值观，同时要符合道德、法律层面的约束。

视频链接

课件链接

国内首个可复现的 RLHF 基准，北大团队开源 PKU-Beaver

Thu, 18 May 2023 00:00:00 +0000

北京大学团队开源了名为 PKU-Beaver（河狸）项目，其开源地址为：https://github.com/PKU-Alignment/safe-rlhf

如今，大语言模型如 ChatGPT 已在人们的生产生活中产生广泛影响。作为训练大语言模型的关键步骤，RLHF（Reinforcement Learning from Human Feedback）是一种利用强化学习方法从人类反馈中学习的技术。借助 RLHF 技术，大语言模型可与人类偏好保持对齐并遵循人类意图，满足 “有帮助的”、“诚实的” 和 “无害的” 的 3H（Helpful, Honest, Harmless）标准。然而，当前开源社区中复现 RLHF 技术仍具有较大挑战性，相关研究逐渐走向封闭。尚未有团队公开复现 RLHF 所需的数据、代码基准和验证流程，这极大地阻碍了 RLHF 科研的发展。

另一方面，尽管大语言模型的巨大成功得益于 RLHF 技术，但同时也面临着该技术带来的诸多问题。在 RLHF 中，标注员对大语言模型产生的回答进行偏好性打分，通过这些打分形成的偏序关系来训练模型。然而，由于人们的价值观、世界观存在差异，以及每个人所处地域文化、语言、习俗的不同，这些差异在标注过程中可能产生偏见和歧视性数据，导致目前依赖 RLHF 技术取得巨大成功的大语言模型也存在潜在的不安全问题。

为解决上述两个难题，北京大学团队开源了名为 PKU-Beaver（河狸）项目，其开源地址为：https://github.com/PKU-Alignment/safe-rlhf

视频链接

RLChina 2023：基于大语言模型的开放世界智能决策

Thu, 01 Sep 2022 00:00:00 +0000

大语言模型在智能问答上体现出了惊艳的效果。如果利用大语言模型中的通识辅助智能决策是迈向通用人工智能的关键步骤。本讲中，杨耀东老师将会介绍决策模型序列化的工作以及决策模型与大语言模型的对齐问题。相关技术在灵巧手操作、我的世界中已取得重要进展。

视频链接

课件链接

TechBeat 2022: 一个合作博弈的通用求解框架

Thu, 01 Sep 2022 00:00:00 +0000

通过强化学习方法求解多智能体博弈合作问题具有众多的现实应用，例如灵巧双手操纵、无人机群编队等。在本次分享中，杨耀东老师将会介绍一个通用的基于多智能体强化学习技术的合作博弈求解框架：多智能体镜像学习 (Heterogeneous Multi-Agent Mirror Learning)。

HAML 提供了一个通用的算法设计范式，它可以催生出一系列的有效的合作博弈求解算法例如 HAPPO, HATRPO, MACPO, Mutli-agent Transformer 等，并且HAML 算法框架中的成员都天然具有严格的单调递增性的保证。此外，HAML 框架还提供了一系列新的多智能体算法，例如 HADDPG, HADQN, HAA3C。在一系列合作博弈场景，例如星际争霸，灵巧双手操作上，他们都达到了 SOTA 水平。

视频链接

TechBeat 2021: 一个通用零和博弈的求解框架

Thu, 18 Mar 2021 00:00:00 +0000

近年来，求解复杂双人零和博弈在强化学习的技术加持下取得了一系列的重要突破，在游戏AI等实际应用中取得了超人的效果。本次分享将介绍一个通用零和博弈的求解框架以及近期的一些进展和思考。

分享内容大纲：

1、研究零和博弈的动机以问题表述

2、为什么自博弈并不时常有效

3、一个通用的求解框架

4、最新进展：策略空间上的行为多样性

5、最新进展：如何更好的剥削对手

6、一些系统层面的思考Talk

视频链接