中外院士共谈大模型：安全问题需设好“紧箍咒”

(相关资料图)

中新网上海9月7日电 (高志苗王梦瑶)“伏羲”说：9月1日上海不下雨。中国科学院院士、复旦大学副校长张人禾7日在2023外滩大会上表示，20年来复旦大学首次举办户外开学典礼背后有气象大模型的“预测助力”。

他介绍，“伏羲”是复旦基于学校自有云上科研智算平台训练出的气象大模型，拥有45亿参数，可以成功预报未来15天的全球天气，每次预报耗时在3秒以内。“‘伏羲’预报的9月1日天气与当天结果完全一致，不仅为师生带来难忘的青春回忆，也是高校创造全新科研范式的一大体现。”

从ChatGPT到文心一言、盘古、曹植……2022年年底OpenAI发布的ChatGPT掀起了全球大模型浪潮。以“科技·创造可持续未来”为主题的2023 INCLUSION·外滩大会7日开幕。大模型成为大会关键词的同时，大模型安全等“冷思考”也成为专家关注的重点。

美国科学院院士、美国工程院院士、英国皇家学会外籍院士迈克尔·乔丹(Michael I.Jordan)表示，ChatGPT无法确定自己所写内容的正确性，因为它技术上是存在问题的，而这个问题它还没有真正有效解决。在讲到“不确定”时，人非常擅长处理沟通以及应对不确定信息，ChatGPT没有办法对不确定性进行量化，要找到可能的方法去应对这些挑战。

针对大模型的安全问题，中国科学院院士何积丰认为，主要体现在未经同意的情况下，收集、使用和泄露个人信息。隐私问题既可能发生在训练过程，也可能发生在使用过程中，大模型的生成能力则让“隐私泄露”的方式变得多样化，造成隐私保护更加困难。

“为了应对这些问题，我们需要大模型对齐技术。”何积丰说，“对齐”是指系统的目标和人类价值观一致，使其符合设计者的利益和预期，不会产生意外的有害后果。“如果把人工智能看作西游记里的孙悟空，‘对齐’就是唐僧的紧箍咒。有了紧箍咒，就可以保证技术不会任意使用能力胡作非为。”

何积丰介绍，反馈强化学习是实现对齐的技术途径，目前有两种方式，一是通过人工反馈给模型不同的奖励信号，引导模型的高质量输出；另一种方式是事先给大模型提供明确的原则，系统自动训练模型对所有生成的输出结果提供初始排序。“这意味着，不仅智能系统需要向人类价值观对齐，人类的训练方法也要向价值观对齐。”

迈克尔·乔丹强调，人工智能不会替代人，它只是一个新的工程系统。“科技是一个很好的工程系统，它应该服务于每个人，应该是公平、诚实、透明、稳定的，这些特性是整个工程系统的特点，而不是系统当中个体的特点。所以AI它是集体性的，是将我们团结在一起的技术。”(完)