ChatGPT发布一年多,已经在全世界累积了超过1.8亿用户。而随着越来越多的人们开始频繁使用它,近几个月关于GPT-4在“变笨”、“变懒”的说法不绝于耳。
大家发现这个昔日大聪明在回答提问时逐渐失去了最初的理解力和准确性,时不时给出“驴唇不对马嘴”的答案,或是干脆摆烂、拒绝回答。
对于GPT-4降智的原因,用户们有许多自己的猜测。而最近,来自加州大学圣克鲁兹分校的一篇论文,给出了学术界的最新解释。
论文指出,大模型在它们之前“见过”的任务上表现优秀,在新任务上则相对拉垮。这更像是一种检索的模拟智能方法,回答问题全靠记,而非纯粹基于学习理解能力。因此论文认为,许多大模型在处理早期数据时展现出的优异表现,实际上是受到了「任务污染」的影响。
我们知道,大语言模型之所以强大,是因为在各种零样本和少样本任务中表现出色,显示出处理复杂和多样化问题的灵活性。
而「任务污染」就是一种对零样本或少样本评估方法的污染,指在预训练数据中已包含了任务训练示例——你以为GPT初次回答就这么得心应手?No!其实它在训练过程中就已经“见过”这些数据了。
读过论文后,许多网友也悲观地表示:降智没准儿是目前所有大模型的共同命运。
对于没有持续学习能力的机器学习模型来说,其权重在训练后被冻结,但输入分布却不断漂移。近两亿用户五花八门的新问题日夜不间断,如果模型不能持续适应这种变化,其性能就会逐步退化。
不过想来一个有些矛盾的现实是,现在的人们越来越依赖于AI生成的内容,用退化中的大模型提供的答案去解决生活中的实际问题。未来大模型爬到的数据,将会越来越多会是它自己创造的东西,而不是来自人脑。
AI用AI的产出去自我训练,最终结果又会走向何方呢?如果不着手从根本上解决数据污染和持续学习能力的问题,未来的世界会和大模型一起变笨吗?