航空科技与ChatGPT揭秘这款让人既好奇又害怕的智能机器人
对于ChatGPT的出现及火爆,你的感受是什么呢?本文作者的心情是“好奇又害怕”。为什么ChatGPT能引起如此大的震动呢?以后会对人类产生什么影响?本文作者从ChatGPT的相关概念、背后的技术、商业前景,对ChatGPT进行了分析,并分享了自己的一些观点,一起来看一下吧。
ChatGPT是基于大型语言模型(LLM)的聊天机器人。那么,ChatGPT究竟具备哪些能力呢?语言理解:理解用户输入的句子的含义。世界知识:指的是人对特定事件的亲身体验的理解和记忆,包括事实性知识 (factual knowledge) 和常识 (commonsense)。语言生成:遵循提示词(prompt),然后生成补全提示词的句子 (completion)。这也是今天人类与语言模型最普遍的交互方式。上下文学习:遵循给定任务的几个示例,然后为新的测试用例生成解决方案。思维链:思维链是一种离散式提示学习,在大模型下的上下文学习中增加思考过程。代码理解和代码生成:具有解读和生产代码的能力。
然而,随着神经网络结构设计技术逐渐成熟并趋于收敛,想要通过优化神经网络结构从而打破精度局限非常困难。在近年来,由于数据规模和模型规模的大幅提升,这一局限得到了进一步突破。当模型参数增加到一定程度,就会涌现出远超小模式力的强大能力。
因此,大规模预训练模型得到了迅速发展,尤其在NLP领域。大型语言模型(LLM)背后涉及复杂技术,我们将介绍几个印象深刻的事项。一种创新方法叫做“提示学习”(Prompt Learning),能够通过在输入中添加一个提示词,使预训练模型性能大幅提高。
使用神经网络更省事但有效的手段就是利用现成的大型预训练好的模式,再根据自己的需要微调,即所谓“精调”。Fine-tuning即冻结预训练模式部分网络层,将剩余部分进行微调。这就如同改变妻管严的人看到非妻管严的人故事后,从而摆脱原有情况一样简单高效。
我们可以看到对于大型语言模型来说,“prompting”具有巨大的优势,其避免了大量微调参数工作量,也不需要传统方法依赖专业语料标注,只需提供自然语料即可提升性能。此外,还提出了奖励系统以优化策略,如PPO算法,以模拟人类偏好的输出调整目标策略。
此外,还提出了思维链推理功能,它被认为是一种重要范式转移,当使用思维链时,大型模式在复杂推理上的表现明显优于微调,并且分布鲁棒性也存在潜力。当达到175B大小时,可实现更高效率。而这种范式可能会导致新的革命性的变化,让我们的交流更加自然流畅,不再受到限制。