【联想控股·产业运营】联想研究院获全球通用智能体权威测评榜单第一

2026-02-09

来源:

2月6日,在通用智能体“试金石”——GAIA评测中,联想研究院凭借自主研发的新一代智能体技术(Lemon),以综合最高分91.36登顶全球榜单第一,在 Level 1至 Level 3的全难度阶梯任务中分别取得96.77、89.31、87.76的领先成绩。

GAIA(General AI Assistants)由Meta AI(FAIR)、Hugging Face和AutoGPT社区联合提出,是目前最具权威性、也最贴近真实任务场景的智能体评测之一。

与传统大模型评测不同,GAIA并不关注AI掌握多少知识点,也不以单轮问答的准确率为核心指标。它评估的是AI能不能像真正的助手一样,完成真实世界里的任务。研究数据显示,人类在GAIA测试中的平均成功率超过90%,而即便是配备插件的GPT-4,成功率也仅约15%。

具体来看,GAIA中的任务通常涉及网页搜索与浏览、图像与视频理解、文档解析(Word / Excel / PDF)、编程、数学推理等多种能力组合,对智能体的多模态感知、长链条推理与执行协同提出了极高要求。

而联想Lemon新一代智能体技术之所以能够稳定应对各种场景,关键在于以下三项核心技术优势:

● 深度多模态感知:联想Lemon具有“规划—看见—理解—分析”的完整闭环能力,使其能够稳定应对真实世界中对视觉理解要求极高的任务。

● 深度多模态长链条多步推理:联想Lemon采用Orchestrator–Workers架构,由Orchestrator进行全局规划,将任务动态拆解并分发给不同Worker并行执行,并在结果层进行汇总与校验。同时,通过分级、渐进式的上下文压缩机制,动态控制上下文长度,确保关键信息始终处于推理核心。

● 自进化记忆:Lemon引入的自进化记忆机制使它可以从历史任务的完整执行链中,自动沉淀可复用的关键信息——包括用过哪些工具、哪些步骤有效、哪些路径行不通。无论任务最终成功还是失败,都会被保留下来,成为下一次的经验。这种“经验迁移”能力,使智能体在记忆方面可以持续自进化。

△Lemon 的整体算法流程图

具有行业意义的是,Lemon采用了联想集团自主研发的 AgentCortex 框架,其核心能力被拆分为意图理解、任务分解与规划、工具执行、知识检索、记忆读写与任务总结等模块,并通过统一接口协同运行。

这意味着,Lemon在测试中被验证过的能力能够快速稳定地迁移到真实产品中。

目前,联想集团已经推出三大超级智能体,包括面向个人用户的天禧 AI、联想Qira,以及正用于自身实践的业内首个企业超级智能体——联想乐享。联想研究院这些在GAIA等高难度环境中反复验证的新一代智能体技术,未来将应用于这些超级智能体中,使其AI能力更加强大。

面向未来,联想研究院正在积极布局真实世界中的智能任务自动化、跨系统协同调度与多模态文档理解等关键技术,推动智能体具备更加广泛的自主进化能力,让“能办事的智能体”成为日常工作与生活中的默契队友。

版权©2013 联想控股股份有限公司版权所有   京ICP备05034918    京公网安备110108006812号