分类 AI 下的文章

官方 OmniTool 由以下 4 个模块组成:

  • OmniParserServer:负责解析屏幕元素,输出元素 ID、坐标位置及语义化内容;
  • OmniBox:承载 Win11 系统的前端执行环境,持续截图并执行 LLM 下发的指令;
  • gradio:整体调度中心,负责串联三端——从 OmniBox 获取截图后发送至 OmniParserServer 进行解析,再将结果转发给 LLM,最终将指令下发至 OmniBox,如此循环;
  • LLM:新用户注册 Qwen 百炼大模型可获得 100 万 Token 的免费额度,额度耗尽后可切换至免费的 Gemini。

- 阅读剩余部分 -