AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”

智谱视觉推理模型 GLM-4.5V 上线并开源,号称“全球 100B 级效果最佳”

管理员 2025-08-12 10:29:13

摘要:8 月 12 日消息, GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。此外,API 调用价格低至输入 2 元 / M tokens,输出 6 ...

8 月 12 日消息, GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。此外,API 调用价格低至输入 2 元 / M tokens,输出 6 元 / M tokens。

1AI从官方介绍获悉,GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。

在多模态榜单之外,其更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:

  • 图像推理(场景理解、复杂多图分析、位置识别)
  • 视频理解(长视频分镜分析、事件识别)
  • GUI 任务(屏幕读取、图标识别、桌面操作辅助)
  • 复杂图表与长文档解析(研报分析、信息提取)
  • Grounding 能力(精准定位视觉元素)

同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,智谱 AI 同步开源了一款桌面助手应用。

该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。我们也希望通过模型开源和 API 服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。


声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:恢复对华出口背后,英媒曝英伟达、AMD 与美政府达成“史无前例”协议
下一篇:OpenAI 申请 GPT-5 中国商标遇挫,相关申请均被驳回
猜你喜欢
  • 新加坡国立大学团队揭示:让AI既能看又能做的视觉强化学习新突破
  • 哈工大团队发现AI学新技能不忘老本事的秘诀:用一千个通用样本就够了!
  • 哈佛大学团队破解数字时代的"失忆症":为什么我们越来越忘不掉糟糕记忆?
  • OpenAI发布百万美元软件工程挑战:前沿AI模型能否在真实自由职业市场中赚取百万美元
  • 每日AI必读资讯:AI人工智能领域最新热点资讯汇总(2025年8月30日)
  • 微软 AI CEO 苏莱曼:“看似有意识”的 AI 即将到来,恐导致严重后果
  • 厦门AI赋能千行百业:医疗先行,开启产业变革新征程
  • 低资源语言的AI也要会"看图说话":上海AI实验室破解多语言视觉AI文化盲区难题
  • 单个GPU就能处理300万词汇:KAIST团队让大模型记忆力暴涨3倍的神奇方法
  • 斯坦福大学团队揭秘:AI如何像人类一样"看懂"物理世界的运动规律
11 09, 2025
3000 亿美元历史级大单:消息称 OpenAI 与 Oracle 甲骨文达成重磅云计算交易
Str Tom
站长
Str Tom 网络工作室
464
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客