智慧启航创新星辰清华智囊团与大模型共赴真实世界的海洋ToolLLM如同勇敢的航船不输于ChatGPT
机器之心报道
编辑:陈萍、梓文
在科技的海洋中,清华等机构的智囊团与大模型并肩航行,ToolLLM如同指南针,引领着我们穿越真实世界的迷雾。它不仅掌握了16000+真实世界API,更是以其强大的工具使用能力,与ChatGPT齐名。
开源大型语言模型(LLMs)及其变体,如LLaMA和Vicuna,在各项任务上取得了显著进展。但它们在执行更高级任务方面仍有局限性,比如让它们按照人类给出的指令使用外部工具(APIs),很多开源LLM就难以完成。这与最先进的闭源模型ChatGPT形成鲜明对比,它已经展示出了出色的工具使用能力。
为了解决这一问题,来自清华、科研机构及腾讯、知乎等多家机构的研究者联合撰写了论文,他们提出了一种通用工具使用框架—ToolLLM,该框架包括数据构建、模型训练和评估多项功能。该研究从RapidAPI Hub收集了16464个真实世界的RESTful API,涵盖49个类别。
通过在ToolBench上对LLaMA进行微调,这些研究者得到了ToolLLaMA。自动评估器显示,ToolLLaMA展现出了出色的执行复杂指令和泛化到未知API的能力,其性能与ChatGPT相媲美。此外,从表3可以看出,不同方法之间存在差异,其中DFSDT在所有情况下都表现优于其他两种基线方法,并且对于较难指令I2和I3表现提升尤为明显,这说明除了效率之外,它还能解决那些困难复杂的问题,而这些问题是普通ReACT无法回答的问题。
因此,将这些「困难示例」纳入数据集,可以充分激发工具在这些复杂情况下的使用能力,为我们提供了一种新的技术路径,让开源大型语言模型能够更好地适应实际应用需求。在科技节口号中,我们期待这样的创新成果将带来更多可能,使我们的生活更加智能、高效。