实在智能自进入RPA行业以来,实在智能通过连续的技术革新,推出了三代RPA产品,逐步塑造了其在行业中的影响力。特别是第三代产品进一步将大模型技术与RPA结合,推动了RPA行业向Agent智能体时代的转变,实现了更高层次的人机交互体验。
2023年8月,实在智能正式对外发布了其自研的“塔斯(TARS)大语言模型”,并推出了行业领先的TARS-RPA-Agent产品,即实在RPA Agent智能体。这一产品通过自然对话式交互和超自动化执行,进一步简化了数字员工的构建过程,使得技术更加易于被广泛用户所采用。
实在智能解决方案中心总经理陈伟接受的邀请,分享了公司在Agent领域的实践经验和成果。
以下是访谈实录:
Q :实在智能早期致力于研发RPA(机器人流程自动化)技术工具,且已经先后推出了三代RPA产品。如今,又在此基础上进行了进一步升级,发展到智能体(Agent)的阶段。您能否为我们分享一下发展过程中的一些关键点?另外,我们目前在Agent领域有哪些成熟的实践经验?
实在智能涉足Agent领域的决策,实际上是基于公司长期以来在人工智能技术方面的深厚积累。自成立之初,实在智能便专注于人工智能技术的研发。在深入探索人工智能的过程中,我们意识到RPA(Robotic Process Automation)作为一种自动化工具,能够为客户提供一个较为便捷的起点,以便快速实现基于自动化技术的数字化场景应用。相较于智能化,后者对数据基础的要求相对更高,需要更为扎实的数据支撑。因此,RPA成为了帮助客户在数字化转型初期阶段,快速落地自动化项目的优选方案。
我们第一代 RPA 产品大约在 2020年推出,主要面向专业开发者。这款工具可以将电脑中的操作,例如 Excel 处理、网页浏览、Word 文档操作等,抽象成一个个动作组件。用户只需通过拖放这些组件,就可以完成自动化流程的编辑。在这一代产品中,我们积累了约 400 个预设组件,以及数千个丰富的业务组件。然而,我们发现这种方式虽然简化了开发过程,但仍有一定的学习成本,特别是对于业务人员来说,使用起来仍然存在一定挑战。
为了降低使用门槛,我们在第二代RPA产品中进一步引入了人工智能技术。通过将基于智能屏幕语义理解技术的智能组件推荐融入开发过程,能够根据用户在计算机系统中鼠标指向的操作对象,提供最推荐的操作组件建议。这一变化使得用户不再需要从数千个组件中手动查找所需的组件,而是可以在操作过程中根据 AI 的推荐完成流程的开发和记录。如果第一代可以叫做“拖拉拽”,那么这种新方式就可以被称为“点选用”,用户无需深入学习工具即可上手使用。尤其是我们引入了“智能屏幕语义理解”这项专利技术,它能够帮助数字员工动态识别桌面上的元素,就像人眼一样去识别出操作对象的输入框和按钮等元素。
在第二代产品的基础上,我们又考虑将大模型的生成能力结合进来。基于现有的 RPA 工具和智能屏幕语义理解技术,我们开发了第三代产品——Agent 智能体数字员工。这一代产品利用大模型来理解任务和操作流程,将任务描述转换为具体的计算机操作步骤。例如,用户可以输入指令“查询某个公司最近的 20 条新闻”,系统会将其分解为具体步骤:打开浏览器、搜索关键词、点击资讯按钮、收集相关信息等。
在电脑执行这些步骤时,系统会调用相应的 RPA 组件,如“打开网页”组件,接着利用智能屏幕语义理解技术定位输入框并输入内容。大模型根据这些信息生成相应的操作组件,如在输入框中输入搜索关键词、点击搜索按钮等。通过这种方式,我们的第三代产品能够实现更为智能和自动化的任务执行,大幅提高了操作效率和用户体验。
小编介绍:
资深AI职场人,乐于分享AI数字员工前沿案例;
财务硕士,擅长大客户财务数字化转型咨询;
扫码或搜索+v:qiujh0430 领取“AI工具箱”及“大客户数字员工实战案例手册”