字节开源GUI Agent登顶GitHub热榜豆包手机焦点手艺-EVO视讯·(中国区)官方网站

快捷导航

字节开源GUI Agent登顶GitHub热榜豆包手机焦点手艺

来源：EVO视讯官方网站

发布时间：2026-02-12 16:10

　　Chrome Gemini：浏览器里的GUI Agent，模仿人类完成网页跳转、消息提取、表单填写等操做。

　　它针对数据瓶颈、多轮RL不稳、纯GUI局限、参差不齐四大痛点，通过“数据飞轮”让模子和数据互相喂养进化。

　　Agent TARS支撑一键式开箱即用的CLI，能够正在有界面的Web UI施行，也能正在面的办事器运转？。

　　让Agent正在脱手前先多想几步，通过Inference-time Scaling预判后果，特别正在GUI定位使命上刷新了行业记载。

　　2025年1月和合做开源，成为国产纯视觉GUI Agent中首个正在权势巨子基准测试对标并超越GPT-4o的项目。

　　不管软件有没有API、不管界面有多复杂，只需你能看清菜单正在哪、按钮正在哪，它就也能，然后帮你操做。

　　MoltBook则施行类Agent载体，不操做界面、不挪用API完成适用使命，而是让各类Agent自从发帖、互动、发生内容，纯决策层的自从Agent行为。

　　正在输入上，不读取APP/网页/软件内部的空间ID、源码、私有接口等，同一截取屏幕像素图像做为独一输入，靠多模态视觉模子识别界面元素！

　　不再局限于纯真的点击取滑动，而是打通了文件系统取沙盒平台，将浏览器、号令行、东西挪用全量整合。

　　说到Agent、GUI Agent，就正在几天前，抱负汽车CEO李想的一条伴侣圈也正在科技圈惹起关心。

　　正在兼容逻辑上，不管方针使用能否API、能否老旧闭源、能否加密，只需屏幕能显示、人能操做，它就能施行。

　　豆包手机虽然一时成为了现象级的爆款，电脑版现正在登顶了开源榜首，但这项手艺其实早正在一年前就起头结构了。

　　OpenClaw：电脑里的GUI Agent，办理文件、通过通信东西接管指令施行复杂使命。

　　从保守RPA这类从动化东西来看，它们要想干活儿就得去扒复杂的网页源码、记控件编号，并且一旦这些界面稍微改一点，脚本就间接报废了。

　　也就是说句人话，就能让它本人点鼠标、敲键盘、拖动滚动、翻页浏览，正在浏览器和各类软件里帮你完成一整套复杂操做。

　　正在施行上，不挪用API完成功能，间接模仿人的交互行为进行点击、滑动、窗口切换，和实人操做的系统入口完全分歧。

　　本来认为Agent这类AI东西会缩取人之间的能力差距，现实上倒是十倍、百倍地放大了差距。

　　Manus是云端全自从通用Agent，不靠纯视觉模仿界面操做，优先挪用API取东西链自从拆解复杂使命，正在云端沙箱完成阐发、处置、生成全流程，间接交付最终，能够说是专注复杂使命闭环的数字员工。

　　第一步，查抄有没有安拆Node。js和Chrome，没安拆Node。js的话，要安拆一个=22的版本。

　　初代凭仗600万高质量教程数据注入的深度思虑能力，以及精准的同一动做空间，让AI像人类一样看懂并操做界面，正在多项SOTA榜单上插旗。