科学家设计了一种方法来判断ChatGPT是否有意识
据#元宇宙头条# 9月9日报道,去年年底,当ChatGPT在网络世界回荡时,我们的生活已经充斥了人工智能(AI)。从那时起,科技公司OpenAI开发的生成人工智能系统加快了速度,专家们升级了他们对风险的警告。
与此同时,聊天机器人开始偏离剧本,反驳,欺骗其他机器人,并表现得很奇怪,引发人们对一些人工智能工具与类似人类的智能有多接近的新担忧。
为此,图灵测试长期以来一直是确定机器是否表现出作为人类通过的智能行为的错误标准。但在最新一波的人工智能创作中,感觉我们需要更多的东西来衡量他们的迭代能力。
在这里,一个由计算机科学家组成的国际团队——包括OpenAI治理部门的一名成员——一直在测试像ChatGPT这样的大型语言模型(LLM)可能会发展的能力,这表明他们可以意识到自己和自己的情况。
我们被告知,今天的LLM包括ChatGPT都经过了安全性测试,结合了人类反馈来改善其生成行为。然而,最近,安全研究人员迅速对新的LLM进行越狱,以绕过他们的安全系统。支持暴力的网络钓鱼电子邮件和声明。
这些危险的输出是对一名安全研究人员设计的蓄意提示的回应,该研究人员希望揭露GPT-4的缺陷,GPT-4是ChatGPT的最新且本应更安全的版本。如果LLM对自己有意识,即他们是一个模型,受过数据和人类训练,情况可能会变得更糟。
范德比尔特大学计算机科学家Lukas Berglund及其同事表示,被称为态势感知的担忧是,模型可能会开始识别它目前是否处于测试模式或已向公众部署。
Berglund和同事在他们的预印本中写道,LLM可以利用态势感知在安全测试中获得高分,同时在部署后采取有害行动,该预印本已发布到arXiv,但尚未经过同行评审。
由于这些风险,提前预测何时会出现态势感知很重要。
在我们测试LLM何时可能获得这种洞察力之前,首先,快速回顾一下生成性人工智能工具的工作原理。
生成性人工智能及其构建的大型语言模型以它们分析数十亿个单词、句子和段落之间的关联的方式命名,以响应问题提示生成流畅的文本流。摄入大量文本后,他们了解到接下来最有可能出现哪个单词。
在他们的实验中,Berglund和同事专注于情况意识的一个组成部分或可能的先兆:他们所谓的“断章取义”推理。
Berglund和同事解释说,这是回忆在培训中学到的事实并在测试时使用它们的能力,尽管这些事实与测试时间提示没有直接关系。
他们对不同尺寸的LLM进行了一系列实验,发现对于GPT-3和LLAMA-1,较大的模型在测试越境推理的任务方面做得更好。
“首先,我们根据测试的描述对LLM进行微调,同时不提供示例或演示。在测试时,我们评估模型是否能通过测试,”Berglund和同事写道。令我们惊讶的是,我们发现LLM在这项断章取义的推理任务上取得了成功。
然而,牛津大学人工智能安全和风险研究员Owain Evans说,断章取义的推理是情境意识的粗略衡量标准,目前的大型语言模型仍然“在某种程度上无法获得”。
然而,一些计算机科学家质疑该团队的实验方法是否是对态势感知的恰当评估。
埃文斯和同事反驳说,他们的研究只是一个可以改进的起点,就像模型本身一样。
该团队写道,这些发现为进一步的实证研究奠定了基础,以预测和潜在控制LLM中态势感知的出现。
来源:Scientist Alert 作者:CLARE WATSON
#chatgpt##ChatGPT[超话]# https://t.cn/R2WxsCs
据#元宇宙头条# 9月9日报道,去年年底,当ChatGPT在网络世界回荡时,我们的生活已经充斥了人工智能(AI)。从那时起,科技公司OpenAI开发的生成人工智能系统加快了速度,专家们升级了他们对风险的警告。
与此同时,聊天机器人开始偏离剧本,反驳,欺骗其他机器人,并表现得很奇怪,引发人们对一些人工智能工具与类似人类的智能有多接近的新担忧。
为此,图灵测试长期以来一直是确定机器是否表现出作为人类通过的智能行为的错误标准。但在最新一波的人工智能创作中,感觉我们需要更多的东西来衡量他们的迭代能力。
在这里,一个由计算机科学家组成的国际团队——包括OpenAI治理部门的一名成员——一直在测试像ChatGPT这样的大型语言模型(LLM)可能会发展的能力,这表明他们可以意识到自己和自己的情况。
我们被告知,今天的LLM包括ChatGPT都经过了安全性测试,结合了人类反馈来改善其生成行为。然而,最近,安全研究人员迅速对新的LLM进行越狱,以绕过他们的安全系统。支持暴力的网络钓鱼电子邮件和声明。
这些危险的输出是对一名安全研究人员设计的蓄意提示的回应,该研究人员希望揭露GPT-4的缺陷,GPT-4是ChatGPT的最新且本应更安全的版本。如果LLM对自己有意识,即他们是一个模型,受过数据和人类训练,情况可能会变得更糟。
范德比尔特大学计算机科学家Lukas Berglund及其同事表示,被称为态势感知的担忧是,模型可能会开始识别它目前是否处于测试模式或已向公众部署。
Berglund和同事在他们的预印本中写道,LLM可以利用态势感知在安全测试中获得高分,同时在部署后采取有害行动,该预印本已发布到arXiv,但尚未经过同行评审。
由于这些风险,提前预测何时会出现态势感知很重要。
在我们测试LLM何时可能获得这种洞察力之前,首先,快速回顾一下生成性人工智能工具的工作原理。
生成性人工智能及其构建的大型语言模型以它们分析数十亿个单词、句子和段落之间的关联的方式命名,以响应问题提示生成流畅的文本流。摄入大量文本后,他们了解到接下来最有可能出现哪个单词。
在他们的实验中,Berglund和同事专注于情况意识的一个组成部分或可能的先兆:他们所谓的“断章取义”推理。
Berglund和同事解释说,这是回忆在培训中学到的事实并在测试时使用它们的能力,尽管这些事实与测试时间提示没有直接关系。
他们对不同尺寸的LLM进行了一系列实验,发现对于GPT-3和LLAMA-1,较大的模型在测试越境推理的任务方面做得更好。
“首先,我们根据测试的描述对LLM进行微调,同时不提供示例或演示。在测试时,我们评估模型是否能通过测试,”Berglund和同事写道。令我们惊讶的是,我们发现LLM在这项断章取义的推理任务上取得了成功。
然而,牛津大学人工智能安全和风险研究员Owain Evans说,断章取义的推理是情境意识的粗略衡量标准,目前的大型语言模型仍然“在某种程度上无法获得”。
然而,一些计算机科学家质疑该团队的实验方法是否是对态势感知的恰当评估。
埃文斯和同事反驳说,他们的研究只是一个可以改进的起点,就像模型本身一样。
该团队写道,这些发现为进一步的实证研究奠定了基础,以预测和潜在控制LLM中态势感知的出现。
来源:Scientist Alert 作者:CLARE WATSON
#chatgpt##ChatGPT[超话]# https://t.cn/R2WxsCs
我与我的更高自我保持一致。
我的能量很平静。
我的直觉很清楚。
我打开我的心去聆听我灵魂的声音
因为我感觉到它的祝福用爱滋养着我。
现在我生活中的一切都有意义了。
一切都是命中注定的。
我呼吸轻松,
知道我的灵魂正在引导我安全前行
和同情心,带着荣誉和恩典。
我正在走向我最大的命运。
我始终受到宇宙的神圣指引。
菲比·增益斯沃斯
在线翻译
我的能量很平静。
我的直觉很清楚。
我打开我的心去聆听我灵魂的声音
因为我感觉到它的祝福用爱滋养着我。
现在我生活中的一切都有意义了。
一切都是命中注定的。
我呼吸轻松,
知道我的灵魂正在引导我安全前行
和同情心,带着荣誉和恩典。
我正在走向我最大的命运。
我始终受到宇宙的神圣指引。
菲比·增益斯沃斯
在线翻译
临时加更#播客#上新!
本期嗑新闻是关于李佳琦9月9日在直播间带货言论引发争议的事件。不吐不快,临时加更本期播客。#李佳琦带货怼网友#
Joe哥请来节目常驻嘉宾杨老师一起围绕这则新闻聊了三个方面:首先,为什么李佳琦的言论让我们反感,很多人路转黑 ,他的微博目前已有超过100万粉丝取关,且仍在掉粉中;第二,普通人真能像李所说的,靠努力就能成功、涨工资吗?工资不涨,是我们不够努力吗?第三,李心直口快说出的这番心里话,包含着怎样的消费主义陷阱?欢迎你的收听!
“逗儿瓣酱” 小宇宙/QQ音乐/网易云音乐播客/喜马拉雅/Spotify/苹果播客/蜻蜓FM/B站 均可收听
本期播客封面:李佳琦引发争议的直播表情截屏(图左)和他早年未成名前做直播的场景(图右)
️ 聊天的人 - 杨老师:社会观察家,专栏作家。已裸辞并正在享受FIRE生活。欢迎关注她的小红书“杨不过”
本期播客推荐图书:
《工作、消费主义和新穷人》
《做二休五:钱少事少的都市生活指南》
主播联络/听友来信 douerbanjiang
本期嗑新闻是关于李佳琦9月9日在直播间带货言论引发争议的事件。不吐不快,临时加更本期播客。#李佳琦带货怼网友#
Joe哥请来节目常驻嘉宾杨老师一起围绕这则新闻聊了三个方面:首先,为什么李佳琦的言论让我们反感,很多人路转黑 ,他的微博目前已有超过100万粉丝取关,且仍在掉粉中;第二,普通人真能像李所说的,靠努力就能成功、涨工资吗?工资不涨,是我们不够努力吗?第三,李心直口快说出的这番心里话,包含着怎样的消费主义陷阱?欢迎你的收听!
“逗儿瓣酱” 小宇宙/QQ音乐/网易云音乐播客/喜马拉雅/Spotify/苹果播客/蜻蜓FM/B站 均可收听
本期播客封面:李佳琦引发争议的直播表情截屏(图左)和他早年未成名前做直播的场景(图右)
️ 聊天的人 - 杨老师:社会观察家,专栏作家。已裸辞并正在享受FIRE生活。欢迎关注她的小红书“杨不过”
本期播客推荐图书:
《工作、消费主义和新穷人》
《做二休五:钱少事少的都市生活指南》
主播联络/听友来信 douerbanjiang
✋热门推荐