AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 蚂蚁集团推出UI-Venus:让AI也能像人一样"看懂"并操作电脑界面

蚂蚁集团推出UI-Venus:让AI也能像人一样"看懂"并操作电脑界面

管理员 2025-08-19 10:18:00

摘要:这项由蚂蚁集团人工智能团队完成的研究发表于2025年8月,研究团队包括顾章轩、曾正文、许震宇等多位研究人员。论文标题为"UI-Venus Technical Report: Building High-perf...

这项由蚂蚁集团人工智能团队完成的研究发表于2025年8月,研究团队包括顾章轩、曾正文、许震宇等多位研究人员。论文标题为"UI-Venus Technical Report: Building High-performance UI Agents with RFT",有兴趣深入了解的读者可以通过GitHub代码仓库(https://github.com/antgroup/UI-Venus)获取更多技术细节。

想象一下,你正在教一个从未见过电脑的朋友如何使用手机应用。你需要告诉他"点击这个蓝色按钮"、"滑动到页面底部"、"输入你的用户名"等等。现在,蚂蚁集团的研究团队做了一件更加令人惊叹的事情:他们教会了人工智能如何像人一样"看懂"屏幕上的内容,并且能够准确地执行各种操作任务。

这就是UI-Venus项目的核心所在。UI在这里指的是用户界面,也就是我们每天在手机、电脑上看到的各种按钮、图标、文字框等元素。而Venus这个名字则寓意着这个AI系统能够像维纳斯一样优雅地处理复杂的界面操作任务。

传统的AI助手通常需要专门的应用程序接口才能与软件交互,就像需要特殊的钥匙才能打开特定的门。但UI-Venus完全不同,它只需要"看"一张屏幕截图,就能理解界面上的各种元素,并准确执行用户的指令。这就好比一个人第一次使用某个应用,虽然不熟悉,但凭借对界面设计常识的理解,依然能够找到正确的按钮并完成任务。

在技术实现上,研究团队面临的最大挑战是如何让AI真正"理解"屏幕上看到的内容。这不仅仅是识别文字和图像那么简单,更关键的是要理解这些元素之间的关系,以及它们在整个用户任务中的作用。比如,当用户说"帮我发送这条消息"时,AI需要能够识别出哪个是输入框、哪个是发送按钮,以及正确的操作顺序。

为了解决这个问题,研究团队开发了一种全新的训练方法,叫做强化微调。这个过程就像训练一个新员工一样:首先让AI观察大量的操作示例,学习基本的界面知识;然后通过反复练习,让AI在实际任务中不断改进自己的表现。与传统的训练方法不同,强化微调能够让AI从错误中学习,逐渐掌握更加精准的操作技巧。

UI-Venus的表现确实令人印象深刻。在标准的界面识别测试中,其7B参数版本在ScreenSpot-V2基准测试中达到了94.1%的准确率,72B参数版本更是达到了95.3%的准确率。这些数字意味着,在100次操作中,UI-Venus几乎可以正确完成94到95次,这已经接近人类专家的水平。

更重要的是,UI-Venus不仅能够识别界面元素,还能够执行复杂的多步骤任务。在AndroidWorld这个在线测试平台上,研究人员让UI-Venus完成各种真实的手机操作任务,比如添加联系人、发送消息、搜索信息等。结果显示,72B版本的UI-Venus达到了65.9%的成功率,这意味着它能够独立完成绝大多数日常的手机操作任务。

一、数据质量:打造AI的"眼睛"和"大脑"

就像教育一个孩子需要优质的教材一样,训练UI-Venus也需要高质量的数据。研究团队发现,现有的开源UI数据存在严重的质量问题,大约40%的数据包含各种错误,比如按钮位置标记错误、操作描述不准确等。这就像给学生提供了错误的教科书,不仅学不到正确的知识,还可能养成错误的习惯。

为了解决这个问题,研究团队建立了一套严格的数据清洗流程。他们首先统一了不同数据源的格式标准,就像把不同出版社的教材整理成统一的课程体系。然后,他们仔细检查每一条数据,修正位置偏移的错误,重新编写模糊不清的操作描述。这个过程虽然耗时,但确保了训练数据的准确性。

最终,研究团队从627k条原始数据中精心筛选出107k条高质量的界面识别数据,以及350k条界面操作数据。这些数据覆盖了手机、电脑、网页等各种界面类型,为UI-Venus提供了丰富而准确的学习素材。

更有趣的是,研究团队还开发了一套自动化的数据生成系统。这个系统能够让已经训练好的UI-Venus在虚拟环境中不断尝试各种操作,记录成功的操作轨迹,然后将这些轨迹加入到训练数据中。这就像一个学生通过大量练习,不断总结出新的解题方法,然后将这些方法分享给其他学生学习。

二、核心技术:强化微调让AI学会从错误中成长

传统的AI训练方法就像填鸭式教学,直接告诉AI正确答案是什么。但在界面操作这个领域,这种方法存在明显缺陷。比如,当AI需要点击某个按钮时,传统方法会严格要求AI点击按钮的精确中心位置,如果稍有偏差就认为是错误。但实际上,只要点击在按钮范围内,操作就是成功的。

强化微调的方法完全不同。它更像是鼓励式教学,关注的是操作结果而不是过程的每一个细节。当AI成功完成一个操作时,系统会给予奖励;当操作失败时,系统会提供反馈,帮助AI理解哪里出了问题。通过这种方式,AI能够逐渐学会灵活处理各种情况,而不是僵硬地模仿训练样本。

研究团队设计了一套精巧的奖励机制。对于界面识别任务,如果AI能够准确定位到目标元素,就能获得满分奖励;如果位置稍有偏差但仍在可接受范围内,则获得部分奖励。对于复杂的界面操作任务,奖励机制会综合考虑操作类型的正确性、坐标位置的准确性、以及输入内容的匹配度等多个方面。

这种训练方法的优势在于,它能够让AI学会处理真实世界中的各种变化和不确定性。比如,同一个功能的按钮在不同版本的应用中可能位置略有不同,或者界面可能因为屏幕尺寸的差异而有所调整。传统的训练方法很难应对这些变化,但强化微调能够让AI具备更强的泛化能力。

三、创新方法:自进化轨迹对齐与稀疏动作增强

在复杂的界面操作任务中,AI需要记住之前执行过的操作,这样才能制定合理的下一步计划。这就像你在使用一个新的购物应用时,需要记住刚才点击了哪些页面,现在处于什么位置,接下来应该怎么操作才能完成购买。

研究团队发现,现有的数据中,不同操作步骤的推理过程往往风格不一致,有的详细有的简略,有的偏技术有的偏日常。这种不一致性会让AI在学习时产生困惑,就像一个学生同时使用几本风格迥异的教科书,很难形成一致的知识体系。

为了解决这个问题,他们开发了一种叫做"自进化轨迹对齐"的技术。简单来说,就是让AI在每轮训练后,重新生成所有操作步骤的推理过程,确保这些推理过程在风格和详细程度上保持一致。这就像一个作家在完成初稿后,重新梳理整个故事的叙述风格,确保从头到尾都保持统一的文风。

另一个重要创新是"稀疏动作增强"技术。在界面操作中,有些动作比较常见,比如点击和滑动,但有些动作相对罕见,比如长按或者调用系统功能。这种不平衡的分布会导致AI对常见动作过于熟悉,而对罕见动作掌握不足。但在实际应用中,那些罕见动作往往是完成复杂任务的关键步骤。

稀疏动作增强技术通过特别关注这些罕见动作,为它们创造更多的学习机会。具体方法是,当系统发现某个操作轨迹包含稀疏动作时,会生成多个版本的训练样本,每个版本都有不同的上下文背景但最终都导向同一个稀疏动作。这样,AI就能够在各种不同的情境下练习这些关键动作,大大提升掌握程度。

四、实验验证:在多个基准测试中创造新纪录

为了验证UI-Venus的实际能力,研究团队在多个权威基准测试中进行了全面评估。这些测试就像是AI界的"高考",涵盖了界面识别和操作的各个方面。

在ScreenSpot-V2测试中,这个基准主要评估AI识别界面元素的准确性。UI-Venus的72B版本达到了95.3%的准确率,相比之前的最佳成绩94.8%有了显著提升。更令人印象深刻的是,即使是参数量更小的7B版本,也达到了94.1%的准确率,超越了许多参数量更大的竞争模型。

ScreenSpot-Pro测试更加严格,它使用高分辨率的专业软件界面,包括CAD设计软件、开发工具、创意软件等。这些界面通常包含大量小尺寸的图标和复杂的布局,对AI的视觉理解能力提出了极高要求。在这个挑战性更强的测试中,UI-Venus-72B达到了61.9%的准确率,相比之前的最佳成绩58.4%有了显著提升。

特别值得一提的是在AndroidWorld的表现。这是一个在线测试平台,要求AI在真实的安卓系统环境中完成各种日常任务。与静态的图片识别不同,这个测试需要AI能够进行动态的多步骤操作,处理各种突发情况和界面变化。UI-Venus-72B在这个极具挑战性的测试中达到了65.9%的成功率,超越了之前64.2%的最佳纪录。

研究团队还在多语言环境下测试了UI-Venus的能力。在CA-GUI这个中文界面测试中,UI-Venus展现出了优秀的跨语言泛化能力。即使训练数据主要是英文界面,它依然能够很好地理解中文界面的布局和功能,这证明了UI-Venus学到的是更深层的界面理解能力,而不仅仅是特定语言的模式记忆。

五、技术细节:两个专门化版本各司其职

研究团队采用了一个有趣的设计策略,将UI-Venus分为两个专门化的版本:UI-Venus-Ground专注于界面元素识别,UI-Venus-Navi专注于复杂的多步骤操作任务。这种分工就像一个团队中有专门负责观察的侦察员和负责执行的行动员,各自发挥专长,提高整体效率。

UI-Venus-Ground采用了"无思考"模式,直接输出目标元素的位置坐标,响应速度极快。这种设计适合需要快速响应的应用场景,比如实时的界面辅助或自动化测试。相比之下,UI-Venus-Navi采用了"有思考"模式,会先分析当前情况,制定行动计划,然后执行具体操作。这种模式虽然相对较慢,但能够处理更加复杂的任务序列。

在奖励机制设计上,两个版本也有所不同。界面识别版本主要关注位置准确性,使用简单而有效的"点在框内"奖励机制。而导航操作版本则使用更加复杂的多维度奖励系统,综合考虑格式正确性、动作类型准确性、坐标精确性和内容匹配度等多个因素。

训练过程中,研究团队使用了不同的超参数设置来优化两个版本的性能。界面识别版本使用较高的学习率以快速收敛,而导航操作版本则使用相对保守的设置以确保稳定性。这种差异化的训练策略充分发挥了每个版本的优势。

六、实际应用:展现真实场景下的强大能力

除了标准基准测试,研究团队还展示了UI-Venus在实际应用场景中的表现。他们设计了一系列贴近真实使用情况的测试案例,涵盖了日常生活中常见的各种界面操作需求。

在一个典型的案例中,用户要求AI"在夸克浏览器中查看云图片中'壁纸_3.jpg'的详细信息"。这个任务需要AI理解中文指令,导航到正确的应用功能,使用搜索功能查找特定文件,然后提取并整理文件的详细信息。整个过程涉及7个连续的操作步骤,每一步都需要基于前面步骤的结果来决定下一步动作。

UI-Venus成功完成了这个任务,不仅准确找到了目标文件,还正确提取了文件名、大小和ID等关键信息。更重要的是,整个操作过程流畅自然,没有出现卡顿或错误操作,展现出了接近人类用户的操作体验。

在另一个测试案例中,AI需要在联系人应用中创建一个新的联系人,但明确要求"不要保存"。这个看似简单的任务实际上测试了AI对指令细节的理解能力和自我控制能力。UI-Venus准确理解了用户的意图,完成了所有信息输入步骤,但最终没有点击保存按钮,完美执行了用户的要求。

这些实际应用案例证明,UI-Venus不仅在标准测试中表现优异,在真实使用场景中也能提供可靠的服务。它能够理解复杂的用户指令,处理多步骤的任务序列,甚至能够在必要时展现出自我约束能力。

七、技术挑战:突破传统方法的局限性

开发UI-Venus的过程中,研究团队遇到了许多技术挑战,需要创新性的解决方案。其中最大的挑战之一是如何让AI理解界面元素之间的语义关系,而不仅仅是识别它们的视觉特征。

传统的计算机视觉方法主要关注图像中的像素模式,能够识别出按钮、文本框等界面元素,但很难理解这些元素在用户任务中的作用。比如,虽然AI能够识别出一个按钮,但不一定知道这个按钮是用来提交表单、取消操作还是打开新页面的。

为了解决这个问题,研究团队将视觉理解与语言理解相结合,开发出多模态的理解机制。这种方法不仅分析界面的视觉布局,还考虑按钮标签、上下文信息、以及用户指令等语义线索。通过综合这些信息,AI能够更准确地理解每个界面元素的功能和意图。

另一个重要挑战是处理界面的动态变化。现代应用的界面经常会根据用户操作、网络状态、或其他因素发生变化。比如,一个购物应用的页面可能会根据用户的浏览历史显示不同的商品推荐,或者一个社交应用可能会根据新消息的数量调整界面布局。

UI-Venus通过引入历史上下文机制来应对这种动态性。它不仅分析当前的界面状态,还会考虑之前的操作历史和界面变化,从而更好地理解当前的情况和可能的下一步动作。这种方法让AI能够像人类用户一样,根据上下文信息做出合理的判断。

八、性能优化:在精度和效率之间找到平衡

在实际部署中,UI-Venus需要在准确性和响应速度之间找到适当的平衡。对于不同的应用场景,用户对这两个指标的要求可能不同。比如,在自动化测试中,准确性是最重要的,稍慢一些的响应也可以接受;而在实时辅助系统中,快速响应可能比完美的准确性更重要。

研究团队通过多种方式优化了UI-Venus的性能。在模型架构层面,他们采用了高效的注意力机制,能够快速处理高分辨率的界面图像。在训练策略上,他们使用了知识蒸馏技术,将大模型的能力转移到小模型中,在保持较高准确性的同时显著提升了推理速度。

此外,研究团队还开发了动态调整机制,能够根据任务的复杂程度自动选择合适的处理策略。对于简单的界面识别任务,系统会使用快速模式;对于复杂的多步骤操作,系统会切换到精确模式。这种自适应的方法确保了在各种场景下的最佳性能表现。

在内存和计算资源的优化方面,研究团队采用了梯度检查点、混合精度训练等先进技术,大大降低了训练和推理的资源需求。这些优化让UI-Venus能够在相对有限的硬件环境中稳定运行,为实际部署创造了条件。

九、未来展望:持续改进的发展方向

虽然UI-Venus已经取得了显著的成果,但研究团队也清楚地认识到还有改进空间。他们在论文中坦诚地讨论了当前系统的局限性,并提出了未来的发展方向。

一个重要的改进方向是解决AI推理过程中的"幻觉"问题。有时候,AI在思考阶段会产生正确的推理,但在执行阶段却做出了不一致的动作。这种思考与行动之间的不一致性可能会导致用户困惑,需要进一步的技术突破来解决。

另一个发展方向是扩大训练数据的规模和多样性。虽然当前的训练数据已经相当丰富,但研究团队认为,通过收集更多来源的高质量数据,特别是不同文化背景和使用习惯的数据,能够进一步提升AI的泛化能力和适应性。

研究团队还计划探索更加智能的预训练策略。他们认为,就像人类在学习使用新应用时会依赖以往的经验一样,AI也应该具备这种迁移学习的能力。通过在大规模、多样化的界面数据上进行预训练,AI可能能够更快地适应全新的应用和界面设计。

在应用层面,研究团队设想UI-Venus将来能够支持更加复杂的任务,比如跨应用的工作流程自动化、基于自然语言的个性化界面定制等。这些高级功能将进一步释放AI助手的潜力,为用户带来更加便捷和智能的体验。

说到底,UI-Venus代表了人机交互领域的一个重要进步。它不仅展示了当前AI技术在界面理解和操作方面的能力上限,也为未来更加智能和自然的人机交互方式指明了方向。随着技术的不断成熟和完善,我们有理由期待,在不久的将来,AI助手将能够更加无缝地融入我们的数字生活,成为真正意义上的智能伙伴。

这项研究的开源发布也体现了蚂蚁集团对推动行业发展的承诺。通过分享代码、数据和技术细节,他们为整个研究社区提供了宝贵的资源,必将促进更多创新成果的涌现。对于有兴趣进一步了解技术细节的读者,可以访问项目的GitHub页面获取完整的实现代码和实验数据。

Q&A

Q1:UI-Venus和普通的AI助手有什么区别?

A:UI-Venus最大的特点是只需要看屏幕截图就能理解和操作界面,不需要特殊的程序接口。普通AI助手通常需要开发者专门为它们编写连接程序,而UI-Venus就像人类一样,看到界面就知道该怎么操作,能够处理任何应用程序的界面。

Q2:UI-Venus能完全替代人工操作手机和电脑吗?

A:目前还不能完全替代,但已经能够处理大部分日常任务。在测试中,UI-Venus在安卓系统上的成功率达到65.9%,这意味着它能够独立完成大约三分之二的常见操作任务。随着技术不断改进,未来的成功率还会进一步提升。

Q3:普通用户什么时候能用到UI-Venus技术?

A:虽然研究团队已经开源了相关代码,但UI-Venus目前主要面向开发者和研究人员。要让普通用户便捷使用,还需要进一步的产品化开发。不过,这项技术很可能会首先集成到各种自动化工具和辅助软件中,逐步进入日常应用场景。


声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:腾讯WeChat AI团队重磅推出PRELUDE:一个真正需要"读懂故事"才能解题的AI评测基准
下一篇:西安交通大学与蚂蚁集团联合发布:AI如何真正理解人类情感并给出贴心回应
猜你喜欢
  • 上海AI实验室让AI学会玩转全新软件,不再需要人类手把手教学
  • 哈佛和微软联手打造AI"预言家":仅凭声音就能预测健康状况,准确率竟达92%
  • 斯坦福大学让AI在狼人杀游戏中学会人类级别的讨论和推理
  • 软件工程师的AI助手真能独当一面?Nebius AI 72B参数强化学习智能体破解代码修复难题
  • “苹果牌 AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26
  • 微软研究团队揭秘:AI推理模型为什么会在"多步思考"时犯糊涂?
  • 央视曝光 AI 仿冒孙颖莎全红婵带货
  • 阿里巴巴团队发布突破性研究:揭开大语言模型强化学习的"黑盒子",两种技术组合竟能超越复杂算法
  • 宾州大学团队发明AI"追根溯源神器",让大模型无处藏身
  • OpenAI 迄今最智能 AI 模型:“六边形战士”GPT-5 登场,准确性、速度、推理能力等全面突破
19 08, 2025
新加坡南洋理工大学重新定义3D重建:像智能手机看视频一样理解三维世界
Str Tom
站长
Str Tom 网络工作室
254
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客