> 自媒体 > (AI)人工智能 > ChatGPT笨了,还是老了?
ChatGPT笨了,还是老了?
来源:科技新知
2023-10-08 17:56:36
617
管理

来自斯坦福大学和加州大学伯克利分校在7月份提交的一篇题为《How is ChatGPT's behavior changing over time?》的研究论文显示:同一个版本的大模型,确实可以在相对较短的时间内发生巨大变化。从3月份到6月份,研究者测试了GPT-3.5和GPT-4两个版本,采集了四个常见的基准任务数学问题、回答敏感问题、代码生成和视觉推理的生成结果,并进行评估。结果显示,无论是GPT-3.5还是GPT-4,二者的性能和生成结果,都有可能随时间而变化。数学能力方面,GPT-4(2023年3月)在识别质数与合数方面表现得相当不错(84%准确率),但是GPT-4(2023年6月)在相同问题上的表现不佳(51%准确率)。有趣的是,CPT-3.5在这个任务上6月份的表现要比3月份好得多。不过在敏感问题方面,GPT-4在6月份回答敏感性问题的意愿较3月份下降;代码能力方面,GPT-4和GPT-3.5,都在6月份表现出比3月份更多的错误。研究者认为,虽然ChatGPT的性能和时间没有明显的线性关系,但是准确性确实会飘忽不定。

过往,机器学习模型是按照具体任务和具体数据的对应关系进行训练。通过大量的例子,先教给模型,那个领域中什么是好,什么是坏,再调节一下模型的权重,从而输出恰当的结果。这种思路下,每做一些新的事情,或者数据分布有明显变化,都要重新训练一遍模型。新事情和新数据无穷无尽,模型就只能刷新。但是模型的刷新也会导致过去做得好的事情突然做不好了,进一步限制应用。总结来看,传统的机器学习模型中,数据飞轮本质是为了迭代模型,用新模型解决新问题的范式。不过以ChatGPT为代表的大模型,涌现出自主学习能力,突破了这种范式。过往的机器学习,是先“吃”数据,之后“模仿”,基于的是对应关系;ChatGPT类的大模型,是“教”数据,之后“理解”,基于的是“内在逻辑”。这种情况下,大模型本身不发生变化,理论上可以永葆青春。不过也有从业人士表示,正如大模型的智能涌现一样,是非线性发展、不可预测的,是突然就有的。对于大模型是否会随着时间发生衰老,涌现出难以预测的不可确定性也是未知的。换句话说,ChatGPT在涌现出难以理论化推导的智能性能后,也开始涌现出难以预测的不可确定性。对于“涌现”的黑盒性,9月6日在百川智能Baichuan2开源大模型发布会上,中国科学院院士、清华大学人工智能研究院名誉院长张钹表示:“到现在为止,全世界对大模型的理论工作原理、所产生的现象都是一头雾水,所有的结论都推导产生了涌现现象。所谓涌现就是给自己一个退路,解释不清楚的情况下就说它是涌现。实际上反映了我们对它一点不清楚。”在其看来,大模型为什么会产生幻觉这个问题,涉及到ChatGPT跟人类自然语言生成原理的不一样。最根本的区别在于,ChatGPT生成的语言是外部驱动的,而人类的语言是在自己意图的情况下驱动的,所以ChatGPT内容的正确性和合理性不能保证。在经历过一系列概念炒作跟风上车之后,对于致力于开发生产力基础模型的人来说,面临的挑战将是如何确保其产品持续输出结果的可靠性和准确性。不过对于大模型相关的娱乐产品而言,正如Character.AI 联合创始人Noam Shazeer在《纽约时报》上所说:“这些系统并不是为真相而设计的。它们是为合理的对话而设计的。”换句话说,它们是自信的废话艺术家。大模型的巨浪已然开始分流。

参考资料:

Gizmodo-Is ChatGPT Getting Worse?TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUSMachine Learning Monitoring- Why You Should Care About Data and Concept DriftM小姐沿习录-关于ChatGPT的五个最重要问题清华大学人工智能国际治理研究院-对大模型的研究很迫切,不能解释不清楚就说“涌现”

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
厌倦了BBA,这四款冷门豪华中大型轿车值得考虑,有你喜欢的吗?..
在豪华C级车市场,聚光灯几乎从未离开过奔驰E级、宝马5系与奥迪A6L这“老..
四款“华系”中大型新能源轿车集中亮相,智能化与颜值成竞争关键..
【网通社快报】2026年国内车市竞争加剧,“含华量”与设计颜值成为关键因..
即将上市的5款全新旗舰级SUV,每款都有望成为“爆款”..
iCAR V27——预计2026年一季度上市凭借iCAR V23这款平价“方盒子”车型的..
华为成功了!真正满血鸿蒙SUV来了,竞争奔驰GLS,能卖爆?..
2025年国内出现了一家真正的豪华品牌车企,虽然该品牌旗下目前只有一款轿..
告别溜背审美疲劳,四款“方盒子”SUV硬核来袭,谁是你心头好..
看腻了大街上那些千篇一律的大溜背,是不是总觉得少了点硬汉骨气?如今这..
花20万买SUV,到底怎么才算良心车?实测5款家用SUV,句句大实话..
你有没有过这种纠结:预算20万上下,想买台靠谱家用SUV,怕费油、怕小毛..
15万无对手?5款“闭眼入”燃油SUV,省心省钱抗造,家用车天花板..
15万左右买SUV别瞎选了,就这五款你闭着眼睛干就完事儿,家用省油省心全..
2026年重磅新车展望 聚焦SUV 新能源仍是重点
【中关村在线原创技术】2026年2月1日,国内多家主流车企陆续发布2026年1..
马年硬派SUV上新,谁会是新爆款?iCAR V27/哈弗猛龙PLUS/银河战舰..
爆竹声声辞旧岁,桃符红红迎新年。去年,硬派SUV系列中,令人印象最深的..
关于作者
阳光下的微笑..(普通会员)
文章
1884
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103661

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索