巨型模型如同擎天柱稳固地支撑着16000多项真实世界的API宝库清华等学术机构的ToolLLM就像一

  • 手机
  • 2025年03月21日
  • 机器之心报道 编辑:陈萍、梓文 在科技的殿堂里,一场新的篇章正在被书写。来自清华大学、耶鲁大学、腾讯和知乎等多家机构的研究者们联合起来,提出了一个前所未有的框架——ToolLLM。这一创新框架旨在解决当前大型语言模型(LLMs)在执行更高级任务时的局限性,尤其是在使用外部工具(APIs)方面。 过去,我们见证了开源的大型语言模型及其变体,如LLaMA和Vicuna

巨型模型如同擎天柱稳固地支撑着16000多项真实世界的API宝库清华等学术机构的ToolLLM就像一

机器之心报道

编辑:陈萍、梓文

在科技的殿堂里,一场新的篇章正在被书写。来自清华大学、耶鲁大学、腾讯和知乎等多家机构的研究者们联合起来,提出了一个前所未有的框架——ToolLLM。这一创新框架旨在解决当前大型语言模型(LLMs)在执行更高级任务时的局限性,尤其是在使用外部工具(APIs)方面。

过去,我们见证了开源的大型语言模型及其变体,如LLaMA和Vicuna,在各种任务上取得了令人瞩目的进展。但是,当这些模型需要按照人类给出的指令使用外部工具时,它们往往显得无能为力。这是因为目前大型语言模型的指令调优技术主要集中在基本语言任务上,而缺乏对工具使用方面的探索。这种局限性与那些闭源且性能卓越的大型语言模型如ChatGPT形成鲜明对比。

为了克服这一挑战,研究者们引入了一套完整的系统来构建数据集、训练模型以及评估性能。在这个过程中,他们从RapidAPI Hub收集了16464个真实世界的RESTful API,这些API涵盖了49个不同的类别。然后,他们利用ToolBench作为指令调优数据集,对LLaMA进行微调,并最终获得了ToolLLaMA。

通过ToolEval自动评估器测试显示,ToolLLaMA不仅能够执行复杂指令,而且能够泛化到未知API,这使它在工具使用方面表现出色,并且几乎与ChatGPT持平。在表3中,可以看出DFSDT方法在所有情况下都表现优异,不仅提高了效率,还能有效地处理那些困难而复杂的情形,即使普通ReACT也无法回答的问题。将这些“困难示例”纳入数据集,将极大激发工具在这类复杂情境下的潜力。

总结来说,此次研究不仅提供了一种新的框架以增强大型语言模型对API使用能力,也为我们打开了解决更多现实问题的一扇窗户。此项工作将继续推动科技界向着更加智能化、高效化发展,为我们的生活带来更加便捷和智能化的手抄报内容。

猜你喜欢