AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

腾讯混元图像模型 2.1 上新开源:原生 2K 生图、中英文输入

管理员 2025-09-10 11:08:18

摘要:9 月 10 日消息,,支持原生 2K 生图和中英文原生输入。腾讯还同步开源了“PromptEnhancer 文本改写模型”,输入“画一只可爱的猫”,会自动补全“橘色短毛猫趴在格子桌...

9 月 10 日消息,,支持原生 2K 生图和中英文原生输入。

腾讯还同步开源了“PromptEnhancer 文本改写模型”,输入“画一只可爱的猫”,会自动补全“橘色短毛猫趴在格子桌,爪边放饼干,水彩风”;支持中英文双向转换,用中文说“画带‘Dream’的星空蛋糕”,也能精准呈现,避免“表达模糊”。

混元图像模型 2.1 支持长达 1k tokens 的复杂语义超长 prompt,支持多主体分别描述与精确生成。

混元图像模型 2.1 对图像中文字的渲染和场景细节的把控更为稳定,减少了常见的文字错误与理解偏差。

混元图像模型 2.1 还支持生成各种风格,如真实感人物、漫画与搪胶手办等。

混元图像模型 2.1 还有以下亮点:

  • 双通道文本编码器,同时使用通用和文字编码器:
  • 视觉-语言多模态编码器,更好地理解场景描述、人物动作和细节需求。
  • 多语言的 ByT5 文本编码器,增强模型的文字渲染能力。
  • VLM + 专家模型的结构化 Caption:
  • 结构化 caption 提供多层次的语义信息,大幅提升模型在复杂语义上的响应能力。
  • 创新性引入 OCR agent 和 IP RAG,补齐通用 VLM captioner 在密集文本和世界知识描述短板。
  • 两阶段模型架构:
  • 文生图模型:单双流网络架构,17B 模型参数。
  • Refiner 模型:采用类似图生图的条件生成结构,能显著减少畸形,同时进一步提升图像的质感和清晰度。
  • 两阶段强化后训练:SFT 和 RL 两阶段后训练,自研 Reward Distribution Alignment 强化学习算法,创新性引入高质量图片作为 chosen 样本,强化效果稳定提升
  • 高压缩率 VAE,大幅提升训练推理效率:
  • 32 倍压缩率 VAE:dit 模型 token 输入数极大降低,对齐 VAE 与 dinov2 特征空间, 训练难度降低。2K 图生成耗时与同类模型 1K 图生成耗时持平。
  • 多分辨率的 repa loss:用于加速模型收敛
  • meanflow 推理加速:首次在工业级模型上跑通 meanflow,推理步数由 100 步 –> 8 步、显著提升蒸馏效果
  • 混元文本改写模型(PromptEnhancer):首个系统化的工业级改写模型,通过 SFT 训练和 GRPO 训练,使得文本生成的图像语义大幅度提升,同时提出了 AlignEvaluator 涵盖 6 大类 24 个细粒度考点的奖励模型,PromptEnhancer 支持同时中英文改写。

1AI附混元图像模型 2.1 开源地址如下:

https://github.com/Tencent-Hunyuan/HunyuanImage-2.1


声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:谷歌 Veo 3 已支持生成 1080P 分辨率与竖屏视频,且费用大降
下一篇:国内首家支持全形态 AI 编程工具:腾讯发布自研 AI CLI 工具 CodeBuddy Code
猜你喜欢
  • 每日AI必读资讯:AI人工智能领域最新热点资讯汇总(2025年8月7日)
  • 谷歌DeepMind的AlphaFold3重大突破:让原本需要数年研究的生物分子结构预测变得像查字典一样简单
  • 曝苹果将推 Siri 独立 App 对标 ChatGPT
  • 南华理工大学团队破解文档问答系统评估难题:全新基准DOUBLE-BENCH让AI真正"读懂"复杂文档
  • 北京中小学校新学期开展人工智能通识教育,每学年不少于 8 课时
  • USC团队新突破:用文本就能轻松检测AI模型的隐私泄露,颠覆传统方法
  • 声音变视频:Captions公司推出能听会说的AI导演Mirage
  • 微软研究团队揭秘:AI推理模型为什么会在"多步思考"时犯糊涂?
  • 谷歌开源 Gemma 家族最轻量模型 Gemma 3 270M:2.7 亿参数可灵活用于 手机平板端侧及 Web 环境
  • 每日AI必读资讯:AI人工智能领域最新热点资讯汇总(2025年8月30日)
11 09, 2025
3000 亿美元历史级大单:消息称 OpenAI 与 Oracle 甲骨文达成重磅云计算交易
Str Tom
站长
Str Tom 网络工作室
464
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客