8月16日,百度重磅发布了文心大模型、飞桨平台、AI原生应用如流等一系列技术、产品及生态成果。在同一时间段,AI行业准独角兽杭州“实在智能”(Intelligence Indeed)也正式发布“塔斯(TARS)”大模型,并震撼推出行业首个基于大模型的TARS-RPA-Agent产品,将数字员工应用门槛进一步大幅降低,实现“所说即所得,你说,PC做!”
“塔斯(TARS)”大模型的发布,备受众多行业专家和大模型及RPA行业爱好者的关注,线上观看量达24.5万人次。下面,小编带您一同进入TARS的世界,回顾精彩纷呈的科技盛宴:
大模型开启RPA新境界:对话式生成数字员工,自主完成工作
实在智能创始人兼CEO孙林君(阿宝)在开场致辞中提到,在大模型时代,数字员工的终极形态已变得越来越清晰——“大模型与RPA紧密结合,大幅降低使用门槛,突破接口能力边界。数字员工将具备自主完成任务的能力,成为每个人的智能数字助理,让工作生活更轻松”。本次发布会推出的“TARS-RPA-Agent”是业界首款计算机视觉与大语言模型结合的智能体产品,相信会对RPA行业的发展具有里程碑的意义。
他同时回顾了五年来的技术迭代和产品创新,“实在智能已拥有50余项发明专利,300余项知识产权,这是我们踏踏实实做好技术、做好产品的力证”,作为一家平台型的科技公司,实在智能致力于不断迭代产品技术,通过标准化产品和解决方案为千行百业客户和生态合作伙伴赋能,同时构建客户最优感知的交付和服务体系。
实在智能全新技术底:TARS大模型
内测开启45天之后,实在智能合伙人、核心算法部负责人欧阳小刚(新一)与算法专家汪东瑶(奎托斯)共同揭开了“塔斯(TARS)”大模型的神秘面纱。在AIGC时代到来之际,实在智能通过“TARS大语言模型(通用基础模型、各个垂直行业模型)+ISSUT(智能屏幕语义理解)机器视觉大模型”重构了技术底座,并在这二者之上,对超自动化产品矩阵升级改造,持续发布创新应用。
发布会上,TARS大模型展现了优异的文本生成、语言理解、知识问答、逻辑推理等主流能力:其中,与湘财证券共建的“自研、有效、安全、可信任、可落地”的财经行业大模型TARS-Finance-7B,既保留了生成类大模型的通用技能,更在金融财经领域得到了显著的加强和提升,在多个中英文的通用基准测评集和财经领域基准测评集上均取得良好成绩:
在财经领域,与同为60-70亿参数的Baseline模型相比,TARS-Finance-7B模型平均任务得分领先1%~20%;
在通用领域,TARS-Finance-7B相较基座模型和其他同尺寸Baseline模型,旗鼓相当并在部分领域领先。
优异测评成绩的背后,是历时4个月实实在在的工作:基于充分细致的语料收集和清洗、数据处理及标注,超千亿Tokens的预训练语料和超百万条指令微调数据,实在智能独立完整复现大模型构建的预训练、指令微调和人类反馈强化学习(RLHF)三阶段,使大模型具备完整能力。
自主研发用于中文不当言论判别和生成终止的Detoxify系统,提升模型的安全性和无害性,让大模型“既懂事,又懂法”轻便落地的大模型,才是更好的大模型。“成本可控、效果可用、定制化训练、私有化部署”是TARS大模型在真实场景商用落地的关键特性。
在解决大模型的轻便性和易用性方面,实在智能也做了很多创新,如通过模型量化降低推理阶段的硬件资源消耗、通过推理加速工具和技术优化问答交互产品体验等。此外,TARS大模型支持无缝对接实在Chatbot产品,可以将大模型的能力通过“一键配置”便捷投放到网页、App、小程序等各个终端,同时支持私有化部署,模型更可控、数据更安全!
让大模型“看得见 动起来”:行业首发TARS-RPA-Agent
实在智能进入超自动化赛道以来,不断将AI技术与RPA产品进行深度融合,持续推动创新应用。曾在业内首创“融合拾取”技术,支持顶层拾取与CV拾取无缝融合,使得传统RPA“拖拉拽”专家模式稳定丝滑;进而首创“智能屏幕语义理解”技术(ISSUT),支持对电脑、手机、平板等屏幕的理解,通过实在IPA开创“点选用”的小白模式。
大模型时代开启后,实在智能一直在思考如何将大模型与RPA产品相结合,通过文本指令或对话聊天的方式直接生成数字员工,操作PC电脑自主完成工作任务。从而在实在IPA“小白模式”基础上,将RPA使用门槛再进一步降低,直接进入到“所说即所得,你说,PC做”的“傻瓜模式”。
经过不断探索和尝试,实在智能在业界首发基于大模型的Agent产品,即TARS-RPA-Agent——这是一个基于“TARS+ISSUT”双模引擎,有“大脑”,更有“眼睛和手脚”的超自动化智能体。同时,也是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式。
发布会上,欧阳小刚(新一)详细介绍了TARS-RPA-Agent在设计过程中的解决的关键问题和创新特性:
①自主拆解任务:复杂问题,分而治之
在实际场景中,人类的复杂指令往往蕴含在非常简洁的语句当中,并不是通过大模型生成一段Python代码,或简单调用3-5个RPA组件就能实现。
TARS-RPA-Agent支持将表述简单但含义复杂的指令,进行Chain-Of-Thought式的自主拆解和细化,之后将 拆解出的子任务和具体步骤与实在RPA的流程块和组件进行映射,最终完成一体化、高可控的复杂流程生成。例如,“我要买一台笔记本电脑,帮我推荐下”,TARS-RPA-Agent可将其拆解成“登录购物网站,查询笔记本电脑品牌、配置、价格等信息,完成产品推荐”等多个步骤并加以自动实现。
②感知当前环境:人类视角,理解屏幕
“如何在理解指令含义的基础上,精准找到所要操作的屏幕画面上哪里是输入框、登录按钮或者聊天窗口?如果不仅仅是基于浏览器的软件而是成千上万种不同CS架构的客户端软件怎么办……”
“你是我的眼”,基于计算机视觉大模型的“智能屏幕语义理解”技术(ISSUT)为TARS-RPA-Agent装上了 感知世界的眼睛,带来真正基于人类视觉的电脑屏幕和操作对象理解。
ISSUT使得TARS-RPA-Agent可以“秒懂”屏幕画面,第一时间完成自动解析,无需人工介入参与。在无法解析网页源代码或者客户端软件不开放API接口的大量真实场景中,ISSUT的价值倍加凸显。
例如,理解指令并自动操作并不开放API接口的企业微信。
③执行并且反馈:环环相扣,单步寻优
PDCA(计划、执行、检查、处理)是人类优秀的工作习惯,在执行过程中不断反馈和修正是客观世界的一般规律。真实场景的意图理解和任务执行非常复杂,TARS-RPA-Agent同样需要保证每一步操作的正确性,避免因为理解偏差,或者操作失误,导致最终无法完成任务。
因此,TARS-RPA-Agent巧妙地设计了“基于强化学习的单步寻优策略和每步执行的反馈”相关机制,不断提高决策和执行过程的正确性、可控性。例如,基于之前动作的启发式寻优。
“TARS+”开启无限可能
发布会上,实在智能合伙人、产品创新部负责人周春照(索隆),实在智能合伙人、创新研发中心负责人赵明(鸣人),以及产品专家张译颢(拓海)、张鑫燕(虞姬)等,分别接连上新体验感拉满、智能感十足的TARS大模型与超自动化产品矩阵的深度融合产品,以及全面支持国产信创的IPA数字员工。
TARS+RPA=ChatRPA
TARS+IDP=ChatIDP
TARS+Platform=ChatPlatform
TARS+国产信创IPA数字员工
本次发布会,TARS+ISSUT大模型双底座为超自动化带来崭新视野,TARS-RPA-Agent开创人机协同“你说,PC做!”的更高境界。
后续,在对模型性能、安全性等方面进行充分评估和修正后,实在智能将对社区开源TARS-Finance-7B财经大模型,以促进生成式大模型方向的学术研究和应用发展。也将继续扩大TARS垂直大模型的参数规模,迎接更多的能力涌现。