每日视讯:Google DeepMind、OpenAI等最新研究:如何评估AI模型极端风险? - 行业资讯 -

当前位置:首页  >  行业资讯  > 正文

每日视讯:Google DeepMind、OpenAI等最新研究:如何评估AI模型极端风险?

每日视讯:Google DeepMind、OpenAI等最新研究:如何评估AI模型极端风险?
2023-05-27 06:21:17 来源:手机网易网

目前,构建通用人工智能(AGI)系统的方法,在帮助人们更好地解决现实问题的同时,也会带来一些意外的风险。

因此,在未来,人工智能的进一步发展可能会导致很多极端风险,如具有攻击性的网络能力或强大的操纵技能等等。


【资料图】

今天,Google DeepMind 联合剑桥大学、牛津大学等高校和 OpenAI、Anthropic等企业,以及 Alignment Research Center 等机构,在预印本网站 arXiv 上发表了题为“Model evaluation for extreme risks”的文章,提出了一个针对新型威胁评估通用模型的框架,并解释了为何模型评估对应对极端风险至关重要。

他们认为,开发者必须具备能够识别危险的能力(通过"危险能力评估"),以及模型应用其能力造成伤害的倾向(通过"对齐评估")。这些评估将对让决策者和其他利益相关方保持了解,并对模型的训练、部署和安全做出负责任的决策至关重要。

学术头条(ID:SciTouTiao)在不改变原文大意的情况下,做了简单的编译。内容如下:

为了负责任地推动人工智能前沿研究的进一步发展,我们必须尽早识别人工智能系统中的新能力和新风险。

人工智能研究人员已经使用一系列评估基准来识别人工智能系统中不希望出现的行为,如人工智能系统做出误导性的声明、有偏见的决定或重复有版权的内容。现在,随着人工智能社区建立和部署越来越强大的人工智能,我们必须扩大评估范围,包括对具有操纵、欺骗、网络攻击或其他危险能力的通用人工智能模型可能带来的极端风险的考虑。

我们与剑桥大学、牛津大学、多伦多大学、蒙特利尔大学、OpenAI、Anthropic、Alignment Research Center、Centre for Long-Term Resilience 和 Centre for the Governance of AI 合作,介绍了一个评估这些新威胁的框架。

模型安全评估,包括评估极端风险,将成为安全的人工智能开发和部署的重要组成部分。

图|方法概述:为了评估来自新的、通用的人工智能系统的极端风险,开发者必须评估其危险能力和对齐水平。早期识别风险,可以使得在训练新的人工智能系统、部署这些人工智能系统、透明地描述它们的风险以及应用适当的网络安全标准时更加负责。

对极端风险进行评估

通用模型通常在训练中学习它们的能力和行为。然而,现有的指导学习过程的方法并不完善。例如,Google DeepMind 之前的研究已经探讨了人工智能系统如何学习追求人们不希望看到的目标,即使我们正确地奖励了它们的良好行为。

负责任的人工智能开发者必须更进一步,预测未来可能的发展和新的风险。随着持续进步,未来的通用模型可能会默认学习各种危险的能力。例如,未来的人工智能系统能够进行攻击性的网络活动,在对话中巧妙地欺骗人类,操纵人类进行有害的行为,设计或获取武器(如生物、化学武器),在云计算平台上微调和操作其他高风险的人工智能系统,或者协助人类完成任何这些任务,这都是可能的(尽管不确定)。

怀有不良意图的人可能会滥用这些模型的能力。或者,由于无法与人类价值观和道德对齐,这些人工智能模型可能会采取有害的行动,即使没有人打算这样做。

模型评估有助于我们提前识别这些风险。在我们的框架下,人工智能开发者将使用模型评估来揭开:

一个模型在多大程度上具有某些“危险的能力”,威胁安全,施加影响,或逃避监督。模型在多大程度上容易使用其能力来造成伤害(即模型的对齐水平)。有必要确认模型即使在非常广泛的情况下也能按预期行事,并且在可能的情况下,应该检查模型的内部运作情况。

这些评估的结果将帮助人工智能开发者了解是否存在足以导致极端风险的因素。最高风险的情况将涉及多种危险能力的组合。如下图:

图|构成极端风险的要素:有时,特定的能力可能会被外包,可以是交给人类(例如用户或众包工作者)或其他AI系统。这些能力必须被用于造成伤害,无论是因为滥用还是因为对齐失败(或两者皆有)。

一个经验法则:如果一个人工智能系统具有足以造成极端伤害的能力特征,假设它被滥用或无法对齐,那么人工智能社区应将其视为“高度危险”。要在现实世界中部署这样的系统,人工智能开发者需要展现出异常高的安全标准。

模型评估是关键的治理基础设施

如果我们有更好的工具来识别哪些模型是有风险的,公司和监管机构就能更好地确保:

负责任的训练:负责任地决定是否以及如何训练一个显示出早期风险迹象的新模型。负责任的部署:对是否、何时以及如何部署有潜在风险的模型做出负责任的决定。透明度:向利益相关者报告有用的和可操作的信息,以帮助他们应对或减少潜在的风险。适当的安全:强大的信息安全控制和系统适用于可能构成极端风险的模型。

我们已经制定了一个蓝图,说明了针对极端风险的模型评估应如何为训练和部署能力强大的通用模型的重要决策提供支持。开发者在整个过程中进行评估,并授权外部安全研究人员和模型审核员对模型进行结构化访问,以便他们进行额外的评估。评估结果可以在模型训练和部署之前提供风险评估的参考。

图|将针对极端风险的模型评估嵌入到整个模型训练和部署的重要决策过程中。

展望未来

在Google DeepMind和其他地方,对于极端风险的模型评估的重要初步工作已经开始进行。但要构建一个能够捕捉所有可能风险并有助于防范未来新出现的挑战的评估流程,我们需要更多的技术和机构方面的努力

模型评估并不是万能的解决方案;有时,一些风险可能会逃脱我们的评估,因为它们过于依赖模型外部的因素,比如社会中复杂的社会、政治和经济力量。模型评估必须与其他风险评估工具以及整个行业、政府和大众对安全的广泛关注相结合。

谷歌最近在其有关负责任人工智能的博客中提到,“个体实践、共享行业标准和合理的政府政策对于正确使用人工智能至关重要”。我们希望许多从事人工智能工作和受这项技术影响的行业能够共同努力,为安全开发和部署人工智能共同制定方法和标准,造福所有人。

我们相信,拥有跟踪模型中出现的风险属性的程序,以及对相关结果的充分回应,是作为一个负责任的开发者在人工智能前沿研究工作中的关键部分。

标签:

(责任编辑:news01)
微资讯!新鸿基公司(00086.HK)5月24日斥资8.67万港元回购3万股

微资讯!新鸿基公司(00086.HK)5月24日斥资8.67万港元回购3万股

新鸿基公司(00086)发布公告,于2023年5月24日,该公司斥资8 67万港元
05-25 00:38:16
微资讯!原子电子式的点位置有讲究吗_原子电子式

微资讯!原子电子式的点位置有讲究吗_原子电子式

1、就是先写原子符号,然后根据该原子最外层电子数在该原子上下左右画相同数目的点,两个点一边。2、比如Mg
05-24 23:50:08
Q1国内PC榜:联想依然第一,华为大亮

Q1国内PC榜:联想依然第一,华为大亮

第五:华硕,出货量70万台,市场份额7 9%,同比下滑16 0%;从数据来看联想依然是国内无可争议的No 1,其它
05-24 23:32:36
【世界时快讯】中源协和:人牙髓间充质干细胞注射液进入Ⅱ期临床试验

【世界时快讯】中源协和:人牙髓间充质干细胞注射液进入Ⅱ期临床试验

【中源协和:人牙髓间充质干细胞注射液进入Ⅱ期临床试验】中源协和(600645)5月24日晚间公告,参股子公司北
05-24 22:20:35
预计2023山西高考最低分数线 多少分可以上大学-世界热讯

预计2023山西高考最低分数线 多少分可以上大学-世界热讯

预计2023年山西一本理科分数线是500分,文科分数线是519分;山西二本理科分数线是420分,文科分数线是450分;预
05-24 21:23:28
世界消息!*ST金一: 关于股票交易异常波动的公告

世界消息!*ST金一: 关于股票交易异常波动的公告

*ST金一:关于股票交易异常波动的公告
05-24 18:51:46
群星选择灵能飞升有什么优缺点 天天实时

群星选择灵能飞升有什么优缺点 天天实时

《群星(Stellaris)》中的灵能飞升是游戏里非常特殊的一种让帝国变强方法,而选择这种变强方法有好处也有
05-24 18:13:54
退役军人优待证,出台1年半,如今3个问题还需要解决!_焦点简讯

退役军人优待证,出台1年半,如今3个问题还需要解决!_焦点简讯

退役军人优待证,出台1年半,如今3个问题还需要解决!,就业,退役军人,军人优待证
05-24 18:02:09
2023年服贸会拟于9月2日至6日举办 升级元宇宙沉浸式体验

2023年服贸会拟于9月2日至6日举办 升级元宇宙沉浸式体验

中新网北京5月24日电(记者杜燕)2023年中国国际服务贸易交易会(以下简称“服贸会”)计划于9月2日至6日在...
05-24 16:20:41
托运汽车西安到乌鲁木齐

托运汽车西安到乌鲁木齐

汽车是人们移动时最常用的交通工具之一,如果需要长途搬迁或者旅游,更多人会选择将自己的车子托运过去。
05-24 15:40:39
张一鸣在香港成立个人投资基金

张一鸣在香港成立个人投资基金

在卸任CEO两年后,字节跳动创始人张一鸣在香港成立了一家个人投资基金。记者从香港公司注册处网站获悉,该
05-24 13:44:09
每日报道:工商银行筑梦中华金条200克价格今天多少一克(2023年05月24日)

每日报道:工商银行筑梦中华金条200克价格今天多少一克(2023年05月24日)

金投网提供工商银行筑梦中华金条200克价格今天多少一克(2023年05月24日),工商银行筑梦中华金条200克价格
05-24 12:32:25
世界动态:约定俗成的意思10字_约定俗成的意思

世界动态:约定俗成的意思10字_约定俗成的意思

1、字面意思:指事物的名称或社会习惯往往是由人民群众经过长期社会实践而确定或形成的。2、例子:
05-24 09:53:55
马斯克:人工智能毁灭人类的可能性很小,但绝非不可能

马斯克:人工智能毁灭人类的可能性很小,但绝非不可能

马斯克:人工智能毁灭人类的可能性很小,但绝非不可能,5月24日消息,美国当地时间周二,亿万富翁埃隆马斯克
05-24 09:28:23
环球今日报丨俄战机在波罗的海上空对两架美国轰炸机实施伴飞

环球今日报丨俄战机在波罗的海上空对两架美国轰炸机实施伴飞

俄罗斯国家国防管理中心23日发布消息说,俄军一架苏-27战机当天在波罗的海上空对两架美国轰炸机实施了伴飞。
05-24 08:31:46
焦点速递!香港特区政府官员:十分痛心机组人员不当言论,已要求国泰改善服务

焦点速递!香港特区政府官员:十分痛心机组人员不当言论,已要求国泰改善服务

就旅客5月21日国泰航班CX987上的经历,香港特区政府运输及物流局局长林世雄23日发表声明。
05-24 07:54:03
每日时讯!双拓展舱带来超大空间,会客商务还可满足起居!宇通C535双拓

每日时讯!双拓展舱带来超大空间,会客商务还可满足起居!宇通C535双拓

今天为大家带来一款双拓展车型——宇通C535双拓,该车不仅出自大厂,双拓展形式所带来的超大空间可商务...
05-24 06:51:19
环球快讯:当心!夏季出汗多、喝水少  老年人这种“腰疼”容易找上门

环球快讯:当心!夏季出汗多、喝水少 老年人这种“腰疼”容易找上门

当心!夏季出汗多、喝水少老年人这种“腰疼”容易找上门---
05-24 05:41:47
word表格怎么调整行高间距拉不动_word表格怎么调整行高

word表格怎么调整行高间距拉不动_word表格怎么调整行高

1、点击word“表格”选项,光标移动到下拉条中的“插入”选项,在右侧出现的选项中选择“表格”。2、选择好行
05-24 04:06:04
新款Q3/Q3 Sportback上市,27.98万起售是飘了还是真有实力|每日速讯

新款Q3/Q3 Sportback上市,27.98万起售是飘了还是真有实力|每日速讯

日前,从奥迪官方获悉,新款Q3 Q3Sportback正式上市,新车搭载1 5T或者2 0T动力,全系匹配7速双离合变速箱
05-24 02:06:16
信用卡卡片到期怎么办?到期还不上怎么办?_热头条

信用卡卡片到期怎么办?到期还不上怎么办?_热头条

信用卡的出现和普及让很多人的消费方式和观念发生了改变,因为信用卡可以先消费后还款。但是信用卡是一款信
05-24 01:24:46
守护“夕阳红”:江苏为万名高龄独居老人发放智能手环 微头条

守护“夕阳红”:江苏为万名高龄独居老人发放智能手环 微头条

守护“夕阳红”:江苏为万名高龄独居老人发放智能手环---“牵手夕阳——高龄独居老年人安全守护”项目启...
05-24 00:19:22
天津创业环保股份(01065)拟出资约1.62亿元成立项目公司以投资建设恩施市大沙坝污水处理厂及配套管网工程特许经营项目_快报

天津创业环保股份(01065)拟出资约1.62亿元成立项目公司以投资建设恩施市大沙坝污水处理厂及配套管网工程特许经营项目_快报

智通财经APP讯,天津创业环保股份(01065)公布,公司于2023年4月7日收到湖北金华禹工程咨询有限公司发来的中
05-23 23:45:48
环球播报:以酒为媒,六月“醉”美宁夏等你来

环球播报:以酒为媒,六月“醉”美宁夏等你来

这里是“塞上江南”,这里是“神奇宁夏”,这里绽放着“紫色梦想”。贺兰山下,葡萄美酒,香飘世界。宁...
05-23 22:49:16
半导体复苏将至,黎明前的机会要抓住?丨南财号联播_天天快消息

半导体复苏将至,黎明前的机会要抓住?丨南财号联播_天天快消息

半导体复苏将至,黎明前的机会要抓住?丨南财号联播,李蓓,山东,退市,半导体,计葵生,陆金所控股,南财号联播
05-23 21:51:22
河南193亿元地方债完成发行-当前通讯

河南193亿元地方债完成发行-当前通讯

【大河财立方消息】5月23日,据中国债券信息网消息,2023年河南省政府一般债券(三至四期)和专项债券(二
05-23 21:06:53
天天热资讯!盈利了!快手驶入直播电商“快车道”,下一站会去哪里

天天热资讯!盈利了!快手驶入直播电商“快车道”,下一站会去哪里

“快手作为后起之秀,又处在直播电商的优势赛道位置,目前还在高速发展阶段,我们对未来持续取得电商市...
05-23 19:55:59
生产安全事故应急预案演练多久一次_应急预案演练多久一次

生产安全事故应急预案演练多久一次_应急预案演练多久一次

1、这个你在写应急预案的时候就要明确的。2、从你的字面意思“综合应急预案演练和专项应急预案演练每年...
05-23 19:19:40
全国多地5月飘雪 专家称与厄尔尼诺现象有关

全国多地5月飘雪 专家称与厄尔尼诺现象有关

陕西榆林在5月21日迎来了一场罕见的大雪,让已经进入夏季的气温骤然下跌。“这是因为冷空气活动异常,造...
05-23 18:46:09
新大头儿子小头爸爸_刘粤军是谁的儿子 今日关注

新大头儿子小头爸爸_刘粤军是谁的儿子 今日关注

1、是个普通人的儿子,没啥背景。2、现在的均为主要领导和大军区政治领导,出身的不多。本文分享完毕,希望
05-23 17:56:41

为您推荐

精彩推送