清华智慧之舟16000真实世界API集大成ToolLLM与ChatGPT并驾齐驱

  • 手机
  • 2025年03月21日
  • 机器之心报道 编辑:陈萍、梓文 在科技手抄报的盛世,16000+真实世界API如同宝藏库,清华等机构ToolLLM不输ChatGPT。今天,我们将带你走进这个奇妙的世界,探索如何让大模型掌握这些宝藏,使其成为真正的智慧之舟。 文章开篇提出了一个新的框架——ToolLLM,它增强了大型语言模型对API的使用。在指令调优数据集ToolBench上,对LLaMA进行微调

清华智慧之舟16000真实世界API集大成ToolLLM与ChatGPT并驾齐驱

机器之心报道

编辑:陈萍、梓文

在科技手抄报的盛世,16000+真实世界API如同宝藏库,清华等机构ToolLLM不输ChatGPT。今天,我们将带你走进这个奇妙的世界,探索如何让大模型掌握这些宝藏,使其成为真正的智慧之舟。

文章开篇提出了一个新的框架——ToolLLM,它增强了大型语言模型对API的使用。在指令调优数据集ToolBench上,对LLaMA进行微调,就得到了与ChatGPT性能相当的ToolLLaMA。这是多家机构共同努力结果,如来自清华、以及腾讯、知乎等多方合作,他们联合撰写了论文,以解决现有开源大型语言模型在执行更高级任务时存在的问题。

过去,我们见证了开源大型语言模型及其变体(例如 LLaMA 和 Vicuna)在各种任务上的巨大进展。但当它们面临着按照人类给出的指令使用外部工具(APIs)的挑战时,却显得力不从心。原因就在于当前的大型语言模型主要集中在基本语言任务上,而缺乏对工具使用方面的深入探索,这与最先进的闭源模型如ChatGPT形成鲜明对比。

为了让开源大型语言模型能够更好地使用外部工具,一群研究者引入了一个通用工具使用框架——ToolLLM,该框架包括数据构建、模型训练和评估多项功能。他们甚至从RapidAPI Hub收集了16464个真实世界RESTful API,涵盖49个类别,为后续工作打下坚实基础。

通过对 ToolBench 上 LLaMA 的微调,最终得到的是 ToolLLaMA。在自动评估器 ToolEval 的评估中,ToolLLaMA 展现出了出色的执行复杂指令和泛化到未知 API 的能力,并且,在工具使用方面,其性能与 ChatGPT 相媲美。这一成果证明了一旦技术突破,就能实现前所未有的成就。

此外,从表 3 可以看出,由于DFSDT方法在所有情况下的性能都明显优于其他两种基线方法,不仅节省解路径标注成本,而且对于较难指令(即 I2 和 I3)的性能提升更加明显。这说明除了效率之外,DFSDT还能解决那些困难、复杂的问题,即使普通ReACT无法回答,也能提供答案。此类「困难示例」的加入,将充分激发工具在这些复杂情况下的应用潜力。

最后,让我们再次回望这一壮观场景,大型语言模型如同海洋中的岛屿,每一座岛屿都蕴含着无尽可能。而我们的目标,是要将每一座岛屿连接起来,使它们成为通往知识海洋的一条桥梁。在这样的道路上,每一步都充满希望,每一次尝试,都可能带来革命性的突破。

猜你喜欢