在图灵测试中,慢慢的变多的人无法再将 GPT-4 与人类区分开来。这是美国加州大学圣迭戈分校认知科学家本杰明-伯根和卡梅隆-琼斯的研究成果。在turingtest.live网站上进行的在线% 的人将 ChatGPT 背后的人工智能(AI)模型评为人类。上一版本的 GPT-3.5 成功率为 50%。67%的测试者正确确认了自己是人类。
计算机科学家约瑟夫-韦曾鲍姆(Joseph Weizenbaum)于 1966 年开发的计算机程序 Eliza表现最差,只有 22% 的人将其归类为人类。
据科学家们称,这些结果首次提供了AI系统通过双人互动图灵测试的确凿证据,而且这很可能适用于未来几乎所有最先进的聊天机器人。英国数学家和计算机科学家阿兰-图灵于 1950 年首次提出了以他的名字命名的模仿游戏对话强度测试。
从那时起,它就成了确定机器模仿人类对话能力的一个著名但有争议的基准。在该测试的现代变体中,人类评委会在不知道谁是谁的情况下与另一个人类或聊天机器人对线% 的情况下不能可靠地区分计算机系统和人类,那么机器就被认为通过了测试。
在当前的研究中,人类审讯者与代表其他人类、大型语言模型 GPT-4 和 GPT-3.5 以及基于对称列表处理器 (SLIP) 的简易对话系统 Eliza 的各种证人进行了互动,研究结果可在预印本服务器 Arxiv上找到。研究人员随机分配人类参与者扮演法官或证人的角色。样本包括 101 个人类和 GPT-3.5 游戏,以及 100 个 GPT 4 和 Eliza 游戏,所有游戏均通过一种消息应用程序进行,每个游戏持续五分钟。在 402 名审问者中,168 人为女性,212 人为男性,9 人为非二元。13人不想提供任何信息。参与者的平均岁数为 35 岁。
在2023 年的上一次研究中,Eliza 的表现明显更好,没有一个模型通过测试。这一次,科学家们采用了表现最好的 GPT-4 命令集(提示),并对其进行了修改。提示的第一部分指示模型表现得像一个年轻人,不要太认真地对待游戏,使用口语,别出现拼写和语法错误。此外,它还不能提供太多的知识,尤其是语文和数学方面的知识。
每轮测试开始时,都会添加一些额外的信息,如姓名、地点和时间戳。二人解释说,人类之所以不能百分之百地识别同类,是因为提问者认为人工智能的效率慢慢的升高。这增加了他们将人类错误地识别为机器的可能性。
为了进一步探索影响审讯者做出决定的定性因素,研究小组对他们使用的策略和做出判断的理由来了分类。36%的人询问证人的个人细节或日常活动。第二和第三类最常见的是社会和感情问题(25%)--例如,有关意见、经历和幽默的问题。
审问者就其决定给出的最常见理由(43%)与基于拼写、语法、大小写和语气的语言风格有关。24%的人关注社会情感因素,如幽默感或个性。研究人员警告说,这些根据结果得出当前AI系统的欺骗行为可能不会被发现。能够成功模仿人类的机器人可能会产生深远的经济和社会影响。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
70岁寇振海cos陆振华:“第一天上夜班太开心了”,网友惊呼:居然一点也没老!
曝富人圈里的骚操作:找信托公司开空壳公司,以公司名义买豪宅豪车,每月1块钱租用
上海这群司机太无奈:频频被拒绝!有人因此每天损失400元,企业也说亏本......
苹果最新系统更新:苹果智能正式上线,全面支持AI写作,通话终于能录音了
5天涨粉90万!杨妞花和养父直播因太多人刷礼物关播,表示将捐给“宝贝回家”
2024年金球奖排名:罗德里夺魁 维尼修斯第2 姆巴佩第6 亚马尔第8
与青春同行,与艺术对话--胶州市第二实验初级中学成功举办第九届“青春,为祖国歌唱”艺术节
上一篇:最新研讨标明 GPT-4未经过图灵测验 下一篇:排行榜上最好用的AI工具推荐:加速创意与写作效率的人工智能助手