MiniMax 今日发布桌面 Agent 两项更新:Pocket 功能(Beta)和 Computer Use 正式上线。
核心功能
- Pocket:接入飞书、微信、企业微信、Slack 等主流即时通讯工具。用户通过手机发送指令,Agent 在其电脑上完成任务并将结果回传。
- Computer Use:使 Agent 具备视觉感知能力,可操作鼠标键盘,直接处理本地软件、系统设置和图形界面任务。
技术架构
MiniMax 将桌面操作拆分为四个核心工具域:
- Desktop Control:截图、鼠标键盘输入。
- Window Manager:窗口管理与应用启动。
- Browser Engine:DOM 操作与 CSS 选择器。
- Clipboard:剪贴板读写。
结合各平台 CLI 及 Bash 工具,共集成 60+ 个工具。
执行与安全
- 视觉感知:Agent 输出相对坐标,系统自动换算为屏幕实际像素,确保在不同分辨率显示器上操作精度一致。
- 验证机制:每步执行后自动截图验证,失败时尝试替代方案(如用快捷键代替点击),多次失败则主动报告卡点。
- 权限管理:执行删除文件等敏感操作前会暂停,并将确认请求推送至 IM 端等待用户授权。用户可随时发送指令中止任务。