文章来源于公众号:洞见学堂
作者:邓怀宇
【导读】
随着生成式人工智能的发展,AI Agent应用不断涌现,而端侧大模型的落地为AI Agent应用注入新的活力。特别是近期,苹果发布的基于端侧大模型的智能系统Apple Intelligence,向业界展示了AI Agent应用的更广阔前景。那么,目前AI Agent发展还面临哪些挑战?端侧大模型将如何提升AI Agent的可用性?我们将在本文探讨。
一、什么是AI Agent?
AI Agent(人工智能代理/人工智能体)是融合感知、分析、决策和执行能力的智能体,其能够与环境交互,收集信息、数据,并利用信息、数据自主执行任务,以实现人类设定的目标。AI Agent具备相当显著的主动性,堪称人类的理想智能助手。例如,AI Agent可以根据用户的在线互动和事务处置数据,了解用户的兴趣、偏好、日常习惯,识别用户的意图,主动提出建议,做出决策,并自主帮助用户协调多个应用程序去完成决策。
目前,基于大语言模型的AI Agent应用,在代码生成、数据分析、通用问题解答、科学研究等多个领域内,展现出显著的潜力。比如,在代码生成领域,硅心科技发布的aiXcoder已经能自主完成开发编程、代码自动补全以及代码智能搜索等任务,极大地提升了编程效率。再比如,在线下零售领域,空间运营智能体OmVision Bot,在对店铺进行实时动态检测的同时,能够自主发出异常行为警告,并自主提供专业的店铺运营数据和总结报告,为商家提供全面且高效的管理支持。在个人助理领域,人工智能初创公司HyperWrite推出的Personal Assistant个人智能代理,能够自主完成浏览器中的指定任务,协助用户快速浏览并总结浏览器页面内容,为用户提供智能化的个人助理服务。
二、AI Agent发展面临的挑战
尽管AI Agent应用层出不穷,但目前,AI Agent尚处于发展的初级阶段,其功能与应用范围相对有限,在实际部署与运行过程中仍面临着诸多挑战。
1、提示工程仍需优化
提示工程(Prompt Engineering)是AI Agent发展的关键环节,它有效地连接了人类意图与机器理解,使AI Agent能够更好地理解任务要求,从而更加合理地分解任务,做出更符合情境的决策。有效的提示工程可以提高AI Agent的准确性、可控性和适应性,使其在复杂任务中表现更佳。
过拟合是当下提示工程面临的首要挑战。在提示工程的设计中,平衡很重要,如果提示工程设计过于狭窄,AI Agent会过于依赖特定的输入模式或情境。一旦遇到与训练数据差异较大的新情境,AI Agent将无法适应,导致性能明显下降或产生错误的输出。这种局限性不仅限制了AI Agent的应用范围,还影响其在复杂、多变环境中的稳定性和可靠性。
2、算力基础不足
算力基础设施的优劣直接决定AI Agent的工作表现。首先,计算资源不足是主要问题。随着大模型变得越来越复杂和庞大,大模型训练和推理过程中对计算资源的需求显著增加,而现有的算力基础设施难以满足这些需求。
其次,计算过程中存储系统的性能瓶颈也是一大制约因素。AI Agent训练需要处理大量的多模态数据,如图像、视频和文本数据等,这要求存储系统必须具备高容量和高性能,以确保数据的快速读写和高效管理。然而,现有的存储系统解决方案难以满足这些需求,导致数据同步和数据处理效率低下,影响AI Agent的整体表现。
此外,网络性能和通信问题也一定程度上限制了AI Agent的发展。对于AI Agent的应用来说,通信效率非常重要,网络延迟和带宽瓶颈会严重影响AI Agent的处理能力和应用效果。
3、高质量数据难获取、多模态数据难转换
在数据方面,AI Agent主要面临高质量数据难获取以及多模态转换过程中的数据流失问题。
首先,高质量数据对于AI Agent的模型训练至关重要,但由于数据安全与隐私等问题,AI Agent在获取此类数据时面临更大的挑战。
在进行复杂推理和任务规划时,AI Agent需要处理大量的企业或个人数据,而这些数据往往包含敏感信息,如商业秘密和个人隐私,这对数据安全提出了更高的要求。任何数据泄露或非法访问都可能对用户的隐私造成不可逆转的损害,很多用户因此不希望面向开发者开放这些数据。此外,由于本地计算资源的限制,目前大多数AI Agent都是基于云端大模型运行,这进一步加剧了用户对数据安全性的担忧。
其次,为了更全面地理解、描述现实世界并做出决策,AI Agent需要处理包括文本、图像、视频和音频在内的多模态数据,并将这些多模态数据转换、融合。然而,各种模态的数据都有其独特的结构和语义特征。例如,文本数据通常以线性序列的形式存在,而图像则是二维的像素阵列,视频则是图像序列,音频则是时间序列的声波信号。AI Agent在将这些多模态数据进行转换和融合的过程中,可能会丢失原始数据的细微特征和上下文信息,导致数据不完整,例如,将音频数据转换为文本数据时,关于语音情感色彩或其他非语言交流元素的数据可能丢失,进而影响AI Agent的准确理解和决策。
4、协同多应用工作的能力不足
协同多应用工作的能力代表着AI Agent对工具的使用能力,直接决定了AI Agent的能力边界。目前大部分AI Agent协同多应用工作的能力不足,大多只能调用特定的某个或某几个应用,完成特定场景的任务,而无法实现更为广泛、灵活的多应用协作。
比如,使用当下热门的Agent-GPT来部署一个与个人出行服务相关的AI Agent,该AI Agent其只能调用用户预设的特定应用,执行航班查询和酒店搜索等操作,并为用户生成一份完善的出行计划或攻略。该AI Agent无法搜素大众点评、小红书等非预设应用的内容,也无法在携程、飞猪等非预设应用中完成预定航班、酒店等操作。因此,提升AI Agent协同多应用工作的能力,成为当前AI Agent应用发展面临的一大重要挑战。
5、可解释性和用户信任问题
可解释性是AI Agent发展另一大的挑战。可解释性指的是理解和解释大模型内部工作机制和决策过程的能力。当前,大模型通常被视为黑箱模型,内部机制和决策过程不透明、难以解释。用户无法直接观察或解释模型是如何从输入得到输出,进而造成用户的信任问题,从而影响Agent的应用。
6、责任归属问题
AI Agent依据人类预设的目标进行操作,但在任务的规划、决策以及执行环节上,AI Agent拥有高度的自主性。这种自主性意味着AI Agent在执行任务时可能采取的方式和行为,并不完全等同于或直接反映人类的原始意图。因此,若AI Agent在执行任务过程中出现不当行为或造成他人利益受损,关于责任归属的判定也是一个重要挑战。
三、端侧大模型将如何提升AI Agent的可用性?
随着轻量化大模型的发展,各终端设备制造商纷纷发布搭载端侧大模型的终端产品,这一定程度上将解决AI Agent在算力、数据、跨应用工作等方面的问题,进一步提升AI Agent的可用性。
1、更快的响应效率
过去,基于云端大模型的AI Agent在处理用户任务的过程中,首先需要将数据传输到远程服务器进行处理,然后再将处理结果返回,这一过程不可避免会产生延迟。而具备较强计算能力的端侧大模型则可将这一处理过程迁移至本地设备,以此消除传输造成的时间消耗,从而实现AI Agent实时响应。同时,本地处理也一定程度上减少了数据传输的频率和数量,从而降低了带宽消耗,降低了数据传输成本。
小米最新旗舰手机小米14内置的端侧大模型,显著减少了用户使用的等待时间和操作延迟,实现在拍摄过程中,实时对景象进行判断和优化,有效提高了用户体验,使得用户与设备的交互更加顺畅和自然。
2、更强的运行稳定性
端侧大模型减少了AI Agent对网络连接的依赖。即使在网络连接不稳定或无网络连接的情况下,基于端侧大模型的AI Agent依然能够正常工作,确保工作的连续性和可靠性。比如,在飞行模式下,用户依然可以使用实时翻译、文档分析和智能总结等功能;在Apple Intelligence的最新演示中,Siri可以在无网络连接的情况下工作,并且能够基于端侧大模型回答用户的通识性知识问题。
3、更有效的协同多应用工作能力
相较于目前的AI Agent应用,终端设备厂商基于端侧大模型开发的AI Agent应用能够更灵活、充分地调用更多的终端设备厂商预设应用,自主完成更多的多场景任务。这将大大拓宽AI Agent的应用场景和能力边界。
比如,在苹果Apple Intelligence系统中,Siri能够自主调用苹果手机内设的照片、邮件、备忘录、信息、日程、地图、天气、钱包等应用,实现根据用户的邮件、信息内容,自主分析用户行程安排,将之添加进日程,并作出相应的路线规划。华为最新的智能体小艺则能够实现自主分析设备中所有类型的文件,并根据用户需求实现扩应用的图片编辑、文件分享、文档分析等操作。
值得一提的是,尽管终端大模型使得AI Agent在跨应用调用方面有了很大发展,但目前基于终端大模型的AI Agent协同多应用工作能力还主要局限在终端设备的预设应用中,要实现在更多应用的协同工作能力,还需要打通更多第三方应用,未来随着强势终端设备厂商推动打通更多第三方APP,,AI Agent的可用性和通用性将会进一步增强。
4、更好地解决数据隐私和安全问题
在端侧部署大模型使得AI Agent能够在本地设备上处理数据,无需上传到云端,从而减少了数据在传输过程中的泄露风险,这将显著增强数据隐私和安全。比如苹果最新发布的基于端侧模型运行的个人智能系统—Apple Intelligence的一条底层逻辑就是在设备端处理任务,所有个人敏感数据都会由端侧模型来处理,在需要更高计算能力的情况下,该系统也会先将用户数据在本地进行脱敏处理,然后通过Private Cloud Compute进行加密,再上传到云端服务器进一步处理、计算。这极大程度地保证了用户的隐私安全。
此外,在保证数据隐私和安全的基础上,AI Agent能够在本地获得更加深度、全面的个人数据,AI Agent在对这些个人数据进行深度学习后,将更加了解用户行为、喜好和习惯,从而提高意图感知的准确性以及任务规划和决策的可靠性。
【小结】
随着人们对生成式人工智能技术的认识逐步加深,AI Agent在大众生活中的应用也会变得更加的普遍,我们完全有理由相信在不远的未来它们能够真正成为大众生活和工作中的得力助手。