科技生活手抄报探秘ChatGPT既令人好奇又让人害怕的智能世界
对于ChatGPT的出现及火爆,你的感受是什么呢?本文作者的心情是“好奇又害怕”。为什么ChatGPT能引起如此大的震动呢?以后会对人类产生什么影响?本文作者从ChatGPT的相关概念、背后的技术、商业前景,对ChatGPT进行了深入分析,并分享了自己的一些独到的观点,一起来探索一下吧。
ChatGPT是一款基于大型语言模型(LLM)的聊天机器人,它通过理解用户输入的句子含义,掌握世界知识,生成语言和代码,以及上下文学习等多种功能,使得与之交流的人们体验到强大的智能能力。然而,这款科技产品并不是一蹴而就,其背后的发展时间线可以追溯至神经网络结构设计技术的成熟。
随着数据规模和模型规模不断增大,模型精度也得到了进一步提升。研究表明,当模型参数增加到一定程度,就会涌现出远超小模型的强大能力。这也是为什么我们看到的大型语言模型(LLM)能够在NLP领域取得巨大进展。
这些大型语言模型背后涉及复杂的技术,如提示学习(Prompt Learning),它能够通过在输入中添加一个提示词,使预训练模型性能得到显著提高。目前大家听到的深度学习、大型语言模型(LLM)等概念,本质上都是一种模仿人类神经系统的神经网络模式。在这个过程中,我们可以将自己比作处理单元,而不同的信息输入可能来自不同人的请求,每个请求带有不同的权重。
网络参数是由训练数据决定的,就如同我们的过往经验决定了不同人的影响力。而使用现成的大型预训练模型,再根据自己的需要微调,即所谓精调,可以极大地节省时间和资源。此外,大型语言模型还可以通过prompting方法来调整其能力,而不必改变任何参数,只需为其提供一定量提示即可。
为了优化这种类型的大型语言模型,我们使用了一套名为RLHF(Reward-based Large-scale Language Model Fine-tuning)的高效算法。这套算法包括三个关键步骤:收集演示数据并训练监督策略、收集对比数据并训练奖励模式以及使用概率加权随机策略搜索来优化策略。这种方法类似于教育老师如何指导学生,其中老师了解学生期望输出,然后告诉学生是否符合预期,以此调整教学内容。
据说OpenAI雇佣了40人团队完成RLHF标注工作。最近外媒爆出一个劲爆消息,称“ChatGPT背后的‘血汗工厂’:最低时薪仅1.32美元,9小时至多标注20万个单词,有员工遭受持久心理创伤。”这说明了RLHF标注工作并不简单,而且可能存在一些伦理问题待解决。
最后,由于思维链推理是在性能-比例曲线中的相变,因此当使用思维链进行提示时,大规模言语处理器在复杂推理上的表现明显优于微调,并且具有很好的分布鲁棒性。当达到62B或175B左右的时候,即使是标准提示词方法也不再能匹敌思维链效果,这意味着未来我们将见证更多基于这样的原则创新应用。