AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 StepFun团队发布NextStep-1:让机器像人类一样逐步生成图像的新突破

StepFun团队发布NextStep-1:让机器像人类一样逐步生成图像的新突破

管理员 2025-08-19 10:19:00

摘要:这项由StepFun公司研究团队开发的突破性研究于2025年8月发表在arXiv预印本平台,论文编号为arXiv:2508.10711v1。感兴趣的读者可以通过StepFun官网(https://stepfun.ai/researc...

这项由StepFun公司研究团队开发的突破性研究于2025年8月发表在arXiv预印本平台,论文编号为arXiv:2508.10711v1。感兴趣的读者可以通过StepFun官网(https://stepfun.ai/research/en/nextstep1)或GitHub项目页面(https://github.com/stepfun-ai/NextStep-1)了解更多详情。这项名为NextStep-1的研究代表了人工智能图像生成领域的一次重要进步。

当你看到一幅精美的画作时,是否曾想过艺术家是如何一笔一划地创作出来的?传统的AI图像生成就像魔术师变戏法,瞬间就能变出一张完整的图片,但这种方式往往缺乏精细控制,就像用印章盖出来的图案,虽然快速但缺乏灵活性。StepFun的研究团队却选择了一条截然不同的道路——让AI像真正的艺术家一样,一点一点地绘制图像。

NextStep-1最大的创新在于它采用了"自回归"的方式来生成图像。这听起来很复杂,但实际上就像我们写字一样,一个字接着一个字地写下去,每个新字都要参考前面已经写好的内容。传统的AI图像生成方法要么需要将图像切割成离散的小块(就像拼图游戏),要么需要依赖复杂的扩散模型来处理连续的图像信息。而NextStep-1则巧妙地将这两种方式结合起来,既保持了图像的连续性,又实现了逐步生成的控制能力。

这个140亿参数的大型模型配备了一个只有1.57亿参数的轻量级"流匹配头部",就像一个经验丰富的画家配了一支精巧的画笔。整个系统在处理文本和图像时采用了统一的方法,能够同时理解文字描述并将其转化为视觉内容。研究团队在多个权威测试基准上都取得了优异成绩,在WISE测试中获得0.54分,在GenAI-Bench的高级提示测试中达到0.67分,在DPG-Bench上取得85.28分。

更令人兴奋的是,这项技术不仅能生成图像,还能进行图像编辑。研究团队开发的NextStep-1-Edit在图像编辑任务上同样表现出色,能够根据用户的指令对图像进行精确修改,就像一个听话的助手能够按照你的要求调整画作的细节。

一、像拼积木一样构建图像:NextStep-1的核心理念

传统的AI图像生成就像工厂的流水线,输入一个描述,输出一张完整图片,中间的过程对用户来说是个黑盒子。NextStep-1却采用了完全不同的思路,它把图像生成变成了一个循序渐进的过程,就像建筑师建造房屋一样,先打地基,再砌墙壁,最后装修细节。

这种方法的核心在于将图像分解成一个个连续的"图像标记",而不是传统方法中的离散块。每个标记都包含丰富的视觉信息,就像音乐中的音符,虽然单独看起来简单,但组合起来能够表达复杂的视觉内容。系统通过一个名为"因果变换器"的核心组件来处理这些标记,这个组件就像一个经验丰富的指挥家,能够协调各个部分的工作,确保生成的图像既符合文字描述,又保持视觉上的连贯性。

NextStep-1的架构包含几个关键组件。首先是图像标记器,它负责将输入图像转换成机器能够理解的标记序列,就像翻译官将外语翻译成母语。然后是因果变换器,它是整个系统的大脑,负责理解文字描述并决定下一个图像标记应该是什么。最后是流匹配头部,它像一个精密的画笔,将变换器的决策转化为具体的视觉内容。

这种设计的巧妙之处在于它将文字和图像统一处理。当你输入"一只可爱的小猫坐在阳光下"这样的描述时,系统首先会分析每个词语的含义,然后开始逐步生成图像的各个部分。它可能先生成小猫的轮廓,然后添加毛发的细节,接着处理光影效果,最后完善背景环境。整个过程就像画家作画一样自然流畅。

二、数据收集:为AI准备营养丰富的"食材"

任何优秀的厨师都知道,要做出美味的菜肴,首先需要优质的食材。NextStep-1的训练同样需要高质量、多样化的数据作为"营养"。研究团队精心构建了一个包含四大类数据的训练语料库,就像为AI准备了一份营养均衡的大餐。

第一类是纯文本数据,包含了4000亿个文本标记,主要来源于Step-3语料库。这些文本就像是给AI讲故事,让它学会理解和生成自然语言,保持原有的语言理解能力不会因为学习图像生成而退化。就像一个人学画画的同时还要保持阅读能力一样。

第二类是图像-文本配对数据,这是模型学习将文字描述转换为视觉内容的关键素材。研究团队收集了5.5亿对高质量的图像和对应的文字描述。这些数据来源广泛,包括网络数据、多任务视觉问答数据和富含文字的文档。更重要的是,研究团队使用了先进的AI模型为每张图片重新生成了丰富详细的中英文描述,确保文字和图像之间的匹配度更高。这个过程就像请专业的艺术评论家为每幅画作撰写详细的解说词。

第三类是指令引导的图像到图像数据,专门用于训练模型的编辑能力。研究团队收集了约100万个样本,涵盖视觉感知、可控图像生成、图像修复和通用图像编辑等多个任务。这些数据经过了严格的质量筛选,使用视觉语言模型评估图像质量、合理性、一致性和指令匹配度,确保只有最高质量的样本被用于训练。

第四类是交错数据,这是最有趣的一类数据,它将文字和图像seamlessly交织在一起,就像一本图文并茂的故事书。这类数据包括从视频中提取的帧序列配上相应的描述、教程类内容、以特定角色为中心的场景,以及多视角数据。特别值得一提的是,研究团队开发了一个专门的角色中心数据集NextStep-Video-Interleave-5M,通过人脸识别技术跟踪视频中的特定角色,并为这些场景生成类似故事叙述的丰富描述。这让AI能够学会理解复杂的多回合交互和故事情节。

三、训练过程:从学徒到大师的成长之路

NextStep-1的训练过程就像培养一个艺术学徒成为大师画家的过程,需要经历多个阶段的精心指导和练习。整个训练分为预训练和后训练两大阶段,每个阶段都有其特定的学习目标和训练策略。

预训练阶段又细分为三个子阶段。第一阶段相当于基础训练,所有图像都被调整到256×256的固定分辨率,就像学画画时先从简单的素描开始。在这个阶段,模型学习最基础的图像结构和组成规律,数据配比为20%纯文本、60%图文配对和20%交错数据,共消耗了约1.23万亿个标记。

第二阶段引入了动态分辨率策略,允许模型处理256×256和512×512两种不同的基础分辨率,并使用不同的长宽比分桶来提高计算效率。这就像学会了基础技法后,开始练习处理更大幅面和不同比例的画作。在这个阶段,研究团队增加了更多富含文字和视频交错的数据,让模型能够处理更丰富的视觉细节。

第三阶段是退火阶段,这个过程就像艺术家在完成作品前的最后精修。研究团队从高质量数据集中精选了2000万个样本,这些样本在美学评分、图像清晰度、语义相似性、水印检测等方面都达到了更严格的标准。模型在这些精选数据上训练一个epoch,显著提升了最终输出的图像质量,增强了整体图像结构、构图、纹理和美学吸引力。

后训练阶段包括监督微调和直接偏好优化两个步骤。监督微调阶段使用了500万个精心准备的样本,包括高语义一致性和视觉吸引力的图文配对数据、其他生成模型的图像用于蒸馏学习复杂想象性提示的处理能力,以及思维链数据来改进推理能力。这个阶段还包含了高质量的图像编辑数据,增强了模型的编辑功能。

直接偏好优化阶段则是为了让模型更好地符合人类的审美偏好。研究团队构建了两种类型的偏好数据集。标准偏好数据集通过让模型为每个提示生成16个候选图像,然后使用ImageReward评分系统进行排序,选择得分最高的4个作为"获胜"样本,其余12个作为"失败"样本。自我思维链偏好数据集则在此基础上增加了推理步骤,让模型在生成图像前先进行详细的文本推理,类似于艺术家在动笔前先构思整体布局。

四、性能表现:在各个考试中都取得优异成绩

就像一个优秀的学生在各门考试中都表现出色一样,NextStep-1在多个权威评测基准上都取得了令人瞩目的成绩,充分证明了其在文本到图像生成任务中的强大能力。

在图像-文本对齐能力的测试中,NextStep-1表现尤为突出。在GenEval测试中获得了0.63分(使用自我思维链技术后提升到0.73分),这个测试主要评估模型在计数、定位和空间对齐方面的能力。在GenAI-Bench测试中,基础提示获得0.88分,高级提示获得0.67分(使用思维链技术后分别提升到0.9和0.74分),显示出强大的组合理解能力。在DPG-Bench长文本多对象场景测试中取得85.28分,证明了在处理复杂提示时的可靠组合能力。

特别值得一提的是在OneIG-Bench英文提示测试中的表现,这个基准测试评估对齐、文本渲染、推理和风格控制等多个维度的能力。NextStep-1获得了0.417的总分,显著超越了其他自回归模型,如Emu3的0.311分和Janus-Pro的0.267分。这个结果表明NextStep-1在多个技术维度上都达到了领先水平。

在世界知识整合能力的评估中,NextStep-1同样表现优异。WISE基准测试强调事实基础和语义理解,这个测试要求模型不仅能生成美观的图像,还要确保内容的准确性。NextStep-1在这项测试中获得0.54分(使用思维链技术后提升到0.67分),在自回归模型中表现最佳,甚至超过了大多数扩散模型。当使用提示重写协议时,得分进一步提升到0.79分(思维链技术下为0.83分),这些结果充分展示了模型强大的知识感知语义对齐和跨领域推理能力。

在图像编辑任务上,研究团队开发的NextStep-1-Edit通过在100万高质量编辑专用数据上进行微调,展现出了与先进扩散模型相竞争的性能。在GEdit-Bench英文测试中获得6.58分,在ImgEdit-Bench测试中获得3.71分,证明了其在实际编辑应用中的强大能力。

五、核心发现:是大脑还是画笔在作画

在研究过程中,团队发现了一个非常有趣的现象,这个发现颠覆了人们对AI图像生成机制的传统认知。就像探索画家作画时是大脑在指挥还是手在自主运动一样,研究团队想要了解在NextStep-1中,到底是140亿参数的主体变换器在控制图像生成,还是1.57亿参数的流匹配头部在起主导作用。

通过一系列精心设计的对比实验,研究团队发现了一个令人惊讶的结果:流匹配头部的大小对最终生成效果的影响微乎其微。他们测试了三种不同规模的流匹配头部——小型(6层,1024隐藏维度,4000万参数)、基础型(12层,1536隐藏维度,1.57亿参数)和大型(24层,2048隐藏维度,5.28亿参数)。尽管参数数量相差超过10倍,但三种配置产生的图像质量几乎没有差异,在多项评估指标上的表现都非常接近。

这个发现的意义非常重大。它表明真正的图像生成"智慧"主要来自于那个140亿参数的变换器主体,流匹配头部更像是一个精巧的输出工具,负责将变换器的"想法"转化为具体的视觉内容。这就像一个画家的创意和构思主要来自大脑,而画笔只是将这些想法表现出来的工具。无论使用粗笔还是细笔,关键还是画家的艺术素养和创作能力。

这个发现也解释了为什么NextStep-1能够在保持轻量级采样头部的同时实现如此出色的生成效果。变换器通过自回归的下一个标记预测过程执行核心的生成建模工作,而流匹配头部主要充当轻量级采样器的角色,将变换器的上下文预测转换为连续标记。因此,本质的生成逻辑存在于变换器的自回归预测过程中。

六、图像标记器:成功的关键基石

如果说变换器是NextStep-1的大脑,那么图像标记器就是它的眼睛和手,负责理解和创造视觉内容。研究团队发现,图像标记器的设计对整个系统的成功至关重要,就像建筑的地基必须足够坚实才能支撑整栋大楼一样。

传统的基于VAE的自回归模型有一个众所周知的问题:在强分类器自由引导下容易出现视觉伪影,特别是灰色斑块。之前的研究认为这个问题源于1D位置嵌入的不连续性,但NextStep-1团队通过深入分析发现,真正的原因在于高引导尺度下标记级分布偏移的放大。

在推理过程中,分类器自由引导通过插值来计算引导预测。在扩散模型中,由于潜在变量通常进行了归一化,条件和无条件预测保持一致的尺度,因此高引导尺度下的推理是稳定的。然而在标记级自回归模型中,整个潜在张量的全局归一化并不能确保每个标记的统计一致性。因此,条件和无条件预测之间的微小差异会被大的引导尺度放大,导致生成标记的统计在序列中显著偏移。

研究团队通过实验验证了这一现象。在适中的引导尺度(1.5)下,每个标记的均值和方差在整个生成过程中保持稳定。相比之下,在高引导尺度(3.0)下,这两个统计量对后续标记显著偏离,这种分布偏移直接对应于视觉伪影的出现。

为了解决这个问题,NextStep-1的图像标记器设计采用了通道级归一化,直接解决了这个问题,通过强制执行每个标记的统计稳定性来实现。这种简单但关键的设计选择缓解了不稳定性,使得能够使用强引导而不会降低图像质量。

研究团队还发现了一个反直觉的现象:生成损失和最终合成质量之间存在反向相关关系。具体来说,在标记器训练过程中应用更高的噪声强度会增加生成损失,但矛盾的是,这却能提高生成图像的质量。NextStep-1使用了在噪声强度γ=0.5下训练的标记器,虽然这产生了最高的生成损失,但却产生了最高保真度的图像。相反,为低生成损失训练的标记器导致自回归模型产生类似纯噪声的输出。

研究团队将这种现象归因于噪声正则化培养了一个条件良好的潜在空间。这个过程增强了两个关键特性:标记器解码器对潜在扰动的鲁棒性,以及更加分散的潜在分布。虽然目前还不清楚鲁棒性还是分散性起到了关键作用,但这些结果突出了基于噪声的正则化的实际好处,并为未来的分析指明了有希望的方向。

七、局限性与挑战:成长路上的绊脚石

任何创新技术在发展过程中都会遇到各种挑战和限制,NextStep-1也不例外。研究团队非常坦诚地分享了他们在研究过程中遇到的各种问题和尚未完全解决的技术难题,这些挑战为未来的改进指明了方向。

最明显的问题是在处理高维连续潜在空间时偶尔出现的视觉伪影。当从较低维度的潜在空间(如空间下采样因子为8、潜在通道数为4)过渡到更高维度的空间(空间下采样因子为8、潜在通道数为16)时,虽然前者配置产生稳定的输出,后者偶尔会出现失效模式。这些伪影包括生成后期出现的局部噪声或块状伪影、整张图像的全局噪声,以及微妙的网格状伪影。研究团队认为这可能源于数值不稳定性、训练不足,或者1D位置编码在捕获2D空间关系方面的局限性。

另一个重要挑战是推理延迟。理论分析显示,在H100 GPU上批量大小为1的情况下,每个标记的延迟主要来自LLM的串行解码,而流匹配头部的多步采样也构成了生成成本的重要部分。这提示了两个改进方向:提高流匹配头部的效率,以及将LLM领域的加速技术(如推测解码或多标记预测)适应到图像标记生成领域。

在高分辨率训练方面,NextStep-1面临着与扩散模型相比的固有劣势。自回归生成的严格顺序性质要求在更高分辨率下需要更多的训练步骤才能收敛,而扩散模型可以在每次迭代中并行细化整个图像,更直接地利用2D空间归纳偏置。此外,最近为高分辨率扩散模型开发的技术(如时间步长偏移)很难适应NextStep-1的设置,因为流匹配头部主要作为轻量级采样器,而变换器主体执行核心生成建模,对采样过程的修改对最终输出的影响有限。

在监督微调方面,NextStep-1的自回归框架也面临着独特的挑战。与扩散模型相比,后者通常可以用几千个样本就适应目标分布并保持稳定的通用图像生成能力,NextStep-1的微调过程表现出不稳定的动态性。只有在百万样本规模的数据集上训练时,才能获得实质性的改进。使用较小的数据集时,模型处于一种不稳定的平衡状态,要么改进微小几乎没有影响,要么突然过拟合到目标分布。因此,找到一个既能实现与目标分布对齐又保持通用生成能力的中间检查点仍然是一个重大挑战。

八、未来展望:通往更智能创作的道路

NextStep-1的成功不仅仅是一个技术突破,更像是为整个AI图像生成领域打开了一扇新的大门。这项研究证明了自回归模型在处理连续视觉标记方面的巨大潜力,为未来的发展指明了多个令人兴奋的方向。

从技术优化的角度来看,流匹配头部的加速是一个重要方向。由于实验证明了头部大小对性能影响较小,未来可以通过减少参数数量、应用蒸馏技术实现少步生成,或者使用更先进的少步采样器来提高推理效率。同时,自回归主体的加速也很有希望,可以借鉴大语言模型领域的推测解码或多标记预测等技术。

在高分辨率生成方面,需要专门为逐片自回归模型设计新的策略。这可能包括开发适合逐步生成特点的空间归纳偏置技术,或者设计能够在自回归框架下工作的高分辨率生成策略。

模型的可控性和可编辑性是另一个充满潜力的发展方向。NextStep-1-Edit已经展示了在图像编辑方面的能力,未来可以进一步扩展到更精细的控制,比如局部编辑、风格转换、或者基于草图的生成等。逐步生成的特性使得这种精细控制成为可能,因为系统可以在生成过程中的任何时点接受新的指令或约束。

多模态能力的扩展也是一个自然的发展方向。NextStep-1已经统一了文本和图像的处理,未来可以进一步扩展到视频、音频等其他模态。特别是在视频生成方面,自回归的逐帧生成特性与视频的时序特性天然匹配,有望产生更连贯、更可控的视频内容。

在实际应用层面,NextStep-1的技术可能会revolutionize内容创作的工作流程。设计师、艺术家、营销人员等创意工作者可能会发现,这种逐步可控的生成方式比传统的"一键生成"方法更适合他们的创作需求。它允许在创作过程中进行实时调整和精细控制,就像真正的创作过程一样。

更深层次地说,NextStep-1代表了AI系统向更加可解释、可控制方向发展的趋势。传统的黑盒式生成方法虽然效率高,但缺乏透明性和可控性。而NextStep-1的逐步生成范式使得整个创作过程变得可视化和可干预,这对于需要精确控制输出的专业应用来说具有重要意义。

说到底,NextStep-1最重要的贡献可能在于它证明了AI可以像人类一样进行创作——不是通过神秘的瞬间灵感,而是通过系统性的、逐步的、可理解的过程。这种方法不仅在技术上更加优雅,也在哲学层面上更符合我们对创造性工作的理解。当AI能够像人类艺术家一样一笔一划地创作时,它们就不再是冷冰冰的工具,而可能成为真正的创作伙伴。

这项研究表明,未来的AI系统可能会更加注重过程而不仅仅是结果,更加强调可控性而不仅仅是效率,更加重视可解释性而不仅仅是性能。NextStep-1在这个方向上迈出了重要的第一步,为整个领域的发展树立了新的标杆。随着技术的不断成熟和完善,我们有理由期待看到更多基于这种理念的创新应用,它们将重新定义人类与AI在创作领域的合作关系。

Q&A

Q1:NextStep-1与传统AI图像生成有什么本质区别?

A:NextStep-1最大的区别在于它采用逐步生成的方式,就像画家一笔一划作画一样。传统AI图像生成是瞬间输出完整图片,而NextStep-1会一点点构建图像,每一步都参考前面已经生成的内容。这种方式虽然slower,但提供了更好的控制能力和可解释性。

Q2:NextStep-1的14B参数和157M流匹配头部分别起什么作用?

A:研究发现14B参数的变换器是真正的"大脑",负责理解文字描述和决策图像内容,而157M的流匹配头部更像是"画笔",将大脑的想法转化为具体的视觉效果。有趣的是,即使大幅改变画笔大小,最终效果差异也很小,说明核心智能来自于变换器主体。

Q3:NextStep-1在图像编辑方面有什么特殊优势?

A:由于NextStep-1采用逐步生成的方式,它天然适合图像编辑任务。NextStep-1-Edit可以根据用户指令精确修改图像的特定部分,就像一个听话的助手。在多个编辑基准测试中表现出色,特别适合需要精细控制的专业应用场景。


声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:慕尼黑工业大学重磅发现:AI隐私保护与解释性能否双全?
下一篇:腾讯WeChat AI团队重磅推出PRELUDE:一个真正需要"读懂故事"才能解题的AI评测基准
猜你喜欢
  • 上海AI实验室让AI学会玩转全新软件,不再需要人类手把手教学
  • 哈佛和微软联手打造AI"预言家":仅凭声音就能预测健康状况,准确率竟达92%
  • 斯坦福大学让AI在狼人杀游戏中学会人类级别的讨论和推理
  • 软件工程师的AI助手真能独当一面?Nebius AI 72B参数强化学习智能体破解代码修复难题
  • “苹果牌 AI”拥抱 GPT-5,预计下月登陆 iOS / iPadOS / macOS 26
  • 微软研究团队揭秘:AI推理模型为什么会在"多步思考"时犯糊涂?
  • 央视曝光 AI 仿冒孙颖莎全红婵带货
  • 阿里巴巴团队发布突破性研究:揭开大语言模型强化学习的"黑盒子",两种技术组合竟能超越复杂算法
  • 宾州大学团队发明AI"追根溯源神器",让大模型无处藏身
  • OpenAI 迄今最智能 AI 模型:“六边形战士”GPT-5 登场,准确性、速度、推理能力等全面突破
19 08, 2025
新加坡南洋理工大学重新定义3D重建:像智能手机看视频一样理解三维世界
Str Tom
站长
Str Tom 网络工作室
254
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客