未来信息:AI Agent(人工智能体)具体应用分析(30页报告)(未来信息化战争中,战场空间与作用领域)

本文为节选内容

更多报告,关注公众号:得算多未来产业研究

随着大模型竞争加快、政策鼓励研发投入、更多企业参与AI研究等因素,应用层面的AI Agent推进速度加快。智能体大致可以分为六类,根据他们被设计出的特点,可以作用在不同的应用领域上。不同类别的智能体给予应用层面上更多研发方向,像目前关注度较高的自动驾驶技术、智能电网控制、能源管理等都能被垂类智能体覆盖。结合多模态大模型,自动化和情感需求类智能体已落地。但商业化智能体仍需考虑成本问题,由于智能体之间的交互过程可能出现错误循环且输出结果不一定符合需求,tokens成本远高于普通LLMs。

今日霍州(www.jrhz.info)©️

1、自动化类:微软智能体AutoGen

微软研发的AutoGen是一种多智能体沟通的模型,这些智能体通过对话完成任务。实验发现这种多智能体沟通模式可以有效提高AI解决问题的准确性以及成果的完整性。使用AutoGen,开发者可以灵活定义智能体交互行为。微软的研究证明了该框架在包括解决数学、编码、问题解答、运筹学、在线决策、娱乐等问题上的有效性。

AutoGen需要两个以上的智能体形成交流模式,其中智能体可以由『大语言模型』LLMs、人类、工具来扮演。当一个需求被提出,智能体会开始灵活交流,他可以是多个智能体向需求人汇报的模式(Hierarchical Chat)或者是像研讨会一样随意讨论(Joint Chat)。在官方给出的示例中,智能体之间的沟通确实减少了人工交互,其有能力自己修复出现的问题并给出满意的答案。

在AutoGen智能体程序中,人类充当需求发起者,智能体通过不断使用工具并在相互交流中解决陆续出现的问题从而得到最终答案。在智能体交流过程中,人类可随时介入其中,若用户对最终结果不满意,可以重新提出需求,智能体就会继续优化答案。

AutoGen在四项实战应用的表现测试中均胜过单一『大语言模型』,实验发现智能体能增加AI完成任务的成功率以及模型的稳定性。数学计算:分别测试了AI在完成整个数学题库和随机120道题目的表现,AutoGen的成功率远超各类语言模型。数据库检索问答:先建立一个RAG数据库,然后对智能体进行问答测试,看其能否追踪到正确的答案。其F1-score越高,说明模型更稳定;Recall体现了分类模型对样本的识别能力。Recall越高,说明模型对样本的识别能力越强。从数据看出纯AutoGen模型的表现略高于其他组合。ALFWorld(Adaptive Learning Framework World)研究:ALFWorld是专门用于研究和开发智能体的仿真环境,在其虚拟世界中,包含了各种场景、任务和智能体需要完成的挑战。ALFWorld实验发现3个智能体的成功率高于2个智能体,说明随着交互的智能体变多,智能体间互相纠错的能力有所提升。但对于AutoGen的实验也提到多智能体可能会导致错误循环(智能体之间反馈错误但一直无法解决),这也是降低成功率的因素之一。OptiGuid:是专门设计来通过自然语言处理,解读和指导复杂供应链优化决策。在用不同语言模型运行OptiGuide时,发现多智能体协作模式的成绩显著高于单智能体。其中多GPT4智能体协作运行OptiGuide时,F1-score和Recall分别能达到96%和98%。

jrhz.info

2、情感需求类:陪伴型智能体

智能体另一大应用领域就是提供拟人情感陪伴类服务。陪伴类的智能体拥有长期记忆,让用户与其聊天中产生熟悉且亲切的感觉。随着大模型不断迭代,陪伴类智能体更加立体,能提供更高的情绪价值。目前国内情绪消费类市场潜力较大,在如今紧凑的生活节奏之下,国民孤独感增加,而陪伴类智能体或受益于这样的大环境。根据GIA(Global Industry Analysts)的研究,DennyYin提出该行业规模预计到2026年增长到2000亿美元💵。

情感沟通类智能体上线,收获大量用户好评。在大模型出现之前,一些利用心理学CBT沟通技术的产品已经在市面上广泛存在,例如Weobot、wysa等。随着大模型的发展和迭代,智能体已经能被打造成心理咨询师或塔罗师的角色。用户通过倾诉生活中的烦恼,并在与智能体沟通中寻求情绪宣泄。目前一款治愈系的软件“林间聊愈室”上线后获得了大量好评,AppStore评分4.7,多数用户给出了五星好评。其中产品使用小动物的角色设定降低了用户的戒备心,加上治愈的画风和场景设计,打造独特的用户体验。

3、商业化智能体效能讨论:成本与价值间的博弈

打造智能体并不是0成本,『大语言模型』的token消耗就是最直观的成本展示。由于智能体的运行机制内包含反思和深度学习,这使得其在token消耗方面比传统『大语言模型』高。相比于单智能体,多智能体又多了一层交互端的消耗,当多个智能体讨论且进入错误循环中,无效成本将会显著提升。所以在效能方面,对智能体进行成本讨论以及优化策略十分重要。

在商用智能体中,更先进的『大语言模型』代表更好的用户体验,但随之而来的是极速上升的成本。目前GPT4的价格是GPT3.5turbo的十倍,而且由于智能体之间交互的特性,在输出过程中往往伴随着更高的token消耗。若最终输出的长度超出模型token限制,则不得不调用更高版本的模型例如GPT4-32K,成本又是GPT4的两倍。

在实际测试中,使用搭载GPT4的智能体模型查找新闻并进行总结梳理。这部分的单次消耗是42000个tokens,成本是1.5美元💵。在实际应用中,假设一天需要统计的股票新闻大约有120家公司,则成本为35.8美元💵,按照汇率1:7.14折合人民币255.5元。而且智能体并不是完美的,在运行过程中出现幻觉或错误循环也是常事。例如智能体在找不到合适新闻的时候会进行大量重复的内容输出,人工介入纠错又会增加一定成本。

商业化智能体在成本和最终产品中会有一定博弈,若将智能体运用到股票交易等对精准度需求极高的行业中,产品或引入更多智能体进行协作以提高模型的稳定性,则成本上升。如果运行成本高于其创造的价值时,该智能体模型就失去了商业化的能力。目前多数智能体应用仅停留在测试阶段,市场中的用户需要更理性的看待智能体商业发中能带来的效益。

特别声明:[未来信息:AI Agent(人工智能体)具体应用分析(30页报告)(未来信息化战争中,战场空间与作用领域)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

大亚湾附近学电脑培训班?办公培训班?办公室文员电脑培训哪里有?办公文员培训班?办公室文员培训班?办公文秘培训班有用吗大亚湾办公自动化培训机构(大亚湾的电送哪里)

大亚湾佳睿教育电脑办公文员培训班别分类:1、办公初级班、2、高级办公就业班; 大亚湾佳睿教育办公培训课程简介: 6、办公文员必备电脑技巧:文员必备软件操作实务与技巧,老师多年工作实战技巧,学完可达到1年文员…

大亚湾附近学电脑培训班?办公培训班?办公室文员电脑培训哪里有?办公文员培训班?办公室文员培训班?办公文秘培训班有用吗大亚湾办公自动化培训机构(大亚湾的电送哪里)

草莓 减肥界的“黑马”实至名归(草莓减肥效果好吗)

  每到草莓季,红彤彤、甜滋滋的草莓总是让人垂涎欲滴。对于正在减肥的人来说,面对这份美味难免纠结:草莓减肥可以吃吗?吃了会不会长胖?事实上,草莓不仅能吃,还可能成为减肥路上的得力助手。接下来,就从草莓的营养成分、热量等方面入手,为你揭开草莓

草莓 减肥界的“黑马”实至名归(草莓减肥效果好吗)

娃的黑眼圈咋回事 缺的营养和这些“坑”快自查(娃娃黑眼圈重是什么病)

  当家『长发』现孩子小小年纪就挂着黑眼圈,难免会忧心忡忡,怀疑孩子是不是身体缺了什么。黑眼圈虽常见,但出现在孩子身上,背后的原因可能并不简单。除了部分与营养缺乏有关,还可能涉及生活习惯、疾病等多种因素。接下来,就为大家详细分析小孩有黑眼圈可能

娃的黑眼圈咋回事 缺的营养和这些“坑”快自查(娃娃黑眼圈重是什么病)

北京实木楼梯:让阁楼复式公寓更灵动(北京实木楼梯厂家直销)

近年来,实木楼梯在北京乃至全国的阁楼复式公寓中愈发常见,成为室内设计的重要亮点。它们不仅连接空间,更提升家居格调,但如何挑选合适的实木楼梯?本文为你深度解析实木楼梯的功能美学及其在现代居住环境中的独特价值。

北京实木楼梯:让阁楼复式公寓更灵动(北京实木楼梯厂家直销)

正式解约!『赵露思』生日会泪崩!(赵露si)

在演唱会开始前,不少品牌送来了花篮表示支持,有些是以前合作过的,有些是正在合作的,甚至还有一些还没正式合作的品牌。现场看起来非常热闹,一点也看不出她之前经历过被公司冷落的困境。 之前『赵露思』曾发文提到被经纪人…

正式解约!『赵露思』生日会泪崩!(赵露si)