微软解锁 AI配音新技能：生成最长 90 秒多角色叙述，语音更像真人_AI知识网,一站式人工智能学习平台

摘要：8 月 31 日消息，科技媒体 Windows Latest 昨日（8 月 29 日）发布博文，报道称 Copilot Audio Expressions，可通过 Emotive 和 Story 两种模式生成更具情感...

8 月 31 日消息，科技媒体 Windows Latest 昨日（8 月 29 日）发布博文，报道称 Copilot Audio Expressions，可通过 Emotive 和 Story 两种模式生成更具情感的英文语音。

注：Copilot Audio Expressions 是一款 AI 语音生成工具，功能是让输出的音频更接近真人，并可根据需求加入创意润色。用户无需注册即可直接体验，并可下载 MP3 格式音频，方便在任何设备播放。

该工具目前提供 Emotive（情感表达）和 Story（故事创作）两种模式。

该媒体在测试 Emotive 模式后，选用“Oak”音色和“narration”叙述风格，将模拟火车站的脚本输入系统。

生成的音频不仅朗读了文字，还自动增添细节、调整措辞，让表达更生动。单段音频最长 59 秒，支持十余种声音与风格组合。

在 Story 模式下，系统自动选择音色和风格，用户仅需提供主题提示。

例如输入“讲一个猫在暗处潜行觅食的故事”，AI 就生成了一个长达 90 秒的多角色叙述：旁白用美式口音，猫的对白则为英式口音，并巧妙穿插互动，形成自然流畅的对话效果。

测试结果表明，Story 模式在情节构建、角色区分及声音融合度方面表现出色，输出的成品不像单调的机器朗读，更像是一次配音合作，让该工具不仅适用于简单朗诵，也可胜任有多角色的创意作品制作。

该工具目前仅支持英文，中文及其他语言用户暂无法直接生成母语音频，微软尚未透露后续是否会增加多语言支持。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。