这项由香港科技大学薛柳萌博士领导的国际研究团队于2025年2月发表在arXiv预印本平台的研究,有兴趣深入了解的读者可以通过arXiv:2502.16584访问完整论文。该研究团队汇集了来自香港科技大学、伦敦玛丽皇后大学、中国香港中文大学、北京航空航天大学等多所知名院校的研究人员,共同打造了这个突破性的音频人工智能系统。
在当今的人工智能世界里,我们见证了ChatGPT这样的文字AI助手能够和人类流畅对话,也看到了Midjourney这样的图像生成模型能够创造惊人的艺术作品。然而,在音频领域,我们一直缺少这样一个"万能选手"。就好比一个管弦乐团中,文字和图像这两个乐器组已经能够独奏精彩的乐章,但音频这个乐器组却还在各自为政,每种乐器只会演奏特定的曲目。
研究团队发现了这个问题的根源:现有的音频AI模型就像专业的单一技能工匠,有的只会转录语音,有的只会识别音乐风格,有的只会生成简单的声音效果。这些模型各自精通一门手艺,但无法像人类一样灵活应对各种音频任务。更关键的是,缺乏一个统一的"教学大纲"来训练这样的全能音频助手。
为了解决这个问题,研究团队创造了Audio-FLAN,这可以说是音频领域的"超级大学"。这个"大学"包含了80门不同的课程,涵盖了语音、音乐和声音三个主要学科,总共拥有超过1亿份学习材料。就像一所真正的综合性大学,Audio-FLAN不仅教授理解类课程(比如如何识别说话人的情绪、如何分析音乐的调性),还提供创作类课程(比如如何根据文字生成语音、如何创作音乐片段)。
这项研究的革命性意义在于,它首次实现了音频领域的"指令跟随"训练。简单来说,就是让AI模型能够像一个聪明的助手一样,根据人类的各种指令来处理音频任务。这种能力以前只在文字AI中见过,现在终于在音频领域实现了突破。
一、为什么我们需要音频版的"超级大脑"
在我们的日常生活中,音频无处不在。从早晨的闹钟铃声,到上班路上听的音乐,再到晚上的语音通话,音频是我们获取和传递信息的重要方式。然而,当前的AI技术在处理音频时却显得"专业但狭隘"。
当前音频AI的困境就像一家分工过细的工厂。在这家工厂里,有专门负责语音转文字的工人,有专门识别音乐类型的工人,还有专门生成声音效果的工人。每个工人都在自己的岗位上表现出色,但当需要完成一个复杂的综合任务时,这些工人却无法协调配合。比如,当你想要一个AI助手帮你分析一段包含语音、背景音乐和环境声音的录音时,现有的系统就会显得力不从心。
研究团队通过深入调研发现,这个问题的核心在于缺乏统一的训练方法。在文字AI领域,研究人员早就开发出了像FLAN这样的指令微调数据集,这些数据集就像是一本包含各种题型的习题册,能够训练AI模型处理各种不同的文字任务。但在音频领域,这样的"万能习题册"一直都不存在。
更具体地说,现有的音频模型面临着三个主要挑战。第一个挑战是任务割裂。语音识别模型只会把声音转换成文字,音乐分析模型只会分析音乐的特征,声音生成模型只会创造特定类型的音效。这些模型就像只会做一道菜的厨师,无法为客人准备一桌丰盛的大餐。
第二个挑战是缺乏跨域理解能力。人类在处理音频时,经常需要同时理解语音内容、音乐情感和环境背景。比如,在分析一个电影片段时,我们不仅要听懂对话,还要感受背景音乐营造的氛围,甚至要注意环境声音传达的信息。但现有的AI模型很难做到这种综合理解。
第三个挑战是生成与理解的脱节。在人类的认知中,听和说是相互关联的能力。我们能够理解别人说的话,同时也能根据需要表达自己的想法。但在AI领域,音频理解模型和音频生成模型通常是完全分离的两套系统,无法相互配合。
研究团队意识到,要解决这些问题,需要创建一个能够统一处理各种音频任务的训练系统。这个系统不仅要包含大量的音频数据,还要提供清晰的指令格式,让AI模型能够理解人类的各种需求。这就是Audio-FLAN诞生的背景。
二、构建音频世界的"超级教科书"
Audio-FLAN的构建过程就像编写一本前所未有的音频教科书。这本教科书不是简单的音频文件集合,而是一个精心设计的指令学习系统。
整个构建过程可以比作建造一座图书馆的过程。首先,研究团队需要收集各种类型的"书籍",也就是不同领域的音频数据集。他们从52个公开可用的数据源中收集了材料,这些数据源涵盖了从学术研究到工业应用的各个方面。就像一个资深的图书管理员,他们需要确保每一本"书"都有其独特的价值和作用。
然后,研究团队面临的挑战是如何为这些"书籍"建立统一的索引系统。在传统的音频数据集中,每个数据集都有自己的格式和标注方式,就像不同出版社的书籍有着不同的装帧和目录结构。研究团队需要将这些格式各异的数据统一转换为一种标准的指令格式。
这种统一格式包含三个核心要素:指令、输入和输出。指令就像是给AI助手下达的任务说明书,清楚地告诉它需要完成什么工作。输入是需要处理的原始音频材料,可能是一段语音、一首音乐或者一个声音片段。输出则是期望得到的结果,可能是文字描述、另一段音频,或者是特定的分析结论。
为了让这个系统更加智能和灵活,研究团队还开发了自动指令变化生成技术。这个技术就像是一个语言大师,能够将同一个任务用多种不同的方式来表达。比如,对于语音转文字这个任务,系统可以生成"请将这段语音转换为文字"、"你能帮我听写这段录音吗"、"这段音频说了什么内容"等多种不同的指令表达方式。这种多样性让AI模型能够更好地理解人类的各种表达习惯。
在数据分类方面,研究团队采用了层次化的分类体系。他们将所有任务分为理解类和生成类两大类别,然后在每个大类下面又细分为若干个子类别。理解类任务包括语音识别、情感分析、音乐风格分类等,而生成类任务包括文字转语音、音乐创作、音效合成等。这种分类方式确保了训练数据的全面性和系统性。
特别值得注意的是,研究团队在构建过程中还考虑了时间序列任务的特殊性。音频信号本质上是时间序列数据,很多任务需要分析音频随时间的变化。比如,在分析一首音乐时,不仅要识别整体的风格,还要能够标注出每个时间点的和弦变化。这种时间维度的分析能力是音频AI区别于文字和图像AI的重要特征。
研究团队还引入了推理类任务,这些任务需要AI模型不仅能够识别音频特征,还要能够进行逻辑推理。比如,给定两段音乐片段,模型需要比较它们的节奏快慢;或者根据音乐的描述要求,在特定的时间点生成相应的音乐内容。这种推理能力让Audio-FLAN训练出的模型具备了更高层次的智能。
三、三个专业领域的全面覆盖
Audio-FLAN就像一所综合性大学,设立了三个主要学院:语音学院、音乐学院和声音学院。每个学院都有自己的专业课程体系,同时三个学院之间又相互关联,形成了一个完整的音频知识体系。
语音学院是这所"大学"中最庞大的学院,拥有8个主要专业和34门具体课程,学习材料超过1亿份。这个学院的课程内容非常丰富,从最基础的语音识别开始,逐步扩展到更复杂的语言理解和语音生成任务。
在语音识别专业中,学生需要学会将各种语音转换为文字。这不仅包括标准普通话的识别,还包括各种方言的识别,甚至是语音学层面的音素识别。就像学习外语需要先掌握发音规则一样,这些基础课程为更高层次的语音理解奠定了基础。
语音理解专业则更加深入,需要分析说话人的各种特征。比如,从声音中判断说话人的性别、年龄、情绪状态,甚至是口音特征。这就像一个经验丰富的心理咨询师,不仅能听懂话语内容,还能从声音中读出更多的潜在信息。
说话人识别专业专注于"谁在说话"这个问题。系统需要学会识别不同的说话人,验证说话人身份,甚至在多人对话中分辨出每个人的发言段落。这种能力在会议记录、安全认证等场景中有着重要应用。
语音生成专业则是语音学院的创作类课程。学生需要学会根据文字生成自然的语音,包括普通的文字转语音、带有特定情感的语音生成,甚至是模仿特定说话人风格的语音克隆。这就像培养一个能够模仿各种声音的配音演员。
音乐学院相对精致,设有7个主要专业和28门课程,拥有超过200万份学习材料。这个学院的特色是将音乐理论与实际应用相结合,既有分析类课程,也有创作类课程。
全球音乐信息检索专业教授各种音乐分析技能。学生需要学会识别音乐的调性、风格、情感表达,判断音乐中使用的乐器,甚至是分析演奏技法。这就像培养一个全面的音乐评论家,能够从各个角度深入分析音乐作品。
序列音乐分析专业则更加深入,关注音乐随时间的变化。学生需要学会跟踪音乐的节拍,分析和弦进行,提取旋律线条。这种能力对于音乐创作和编曲具有重要意义。
音乐推理专业是音乐学院的特色专业,要求学生不仅能分析音乐,还要能进行音乐相关的逻辑推理。比如,在音乐的特定节拍上识别乐器或估计音高,或者比较两段音乐在节奏、乐器配置、调性等方面的差异。这种能力需要将音乐分析与逻辑推理相结合。
音乐创作专业则是最具挑战性的专业之一。学生需要学会根据文字描述生成音乐,根据给定的音乐片段进行续写,甚至是根据歌词创作完整的歌曲。这就像培养一个能够理解各种音乐需求的作曲家。
声音学院是三个学院中最年轻但发展最快的学院,设有8个专业和18门课程,拥有近600万份学习材料。这个学院专注于环境声音和音频技术的各个方面。
声音事件识别专业教授学生识别和理解各种环境声音。从识别单一的声音事件,到分析复杂的声音序列,再到理解整个声音场景。比如,从一段录音中识别出汽车声、鸟叫声、人声等不同的声音成分,并理解这些声音共同构成的环境背景。
声音增强专业则专注于改善音频质量。学生需要学会音频修复、降噪、超分辨率等技术,就像学习如何修复老旧照片或者提升图像清晰度一样。这些技能在音频后期制作和通讯系统中有着广泛应用。
声音生成专业是声音学院的创新专业,要求学生根据文字描述生成相应的声音效果,或者根据已有的音频片段进行扩展创作。这种能力在影视制作、游戏开发等领域有着重要价值。
四、创新的指令学习机制
Audio-FLAN最大的创新之处在于引入了指令学习机制,这就像给AI模型配备了一个智能的任务理解系统。传统的音频AI模型只能处理预设的固定任务,而Audio-FLAN训练出的模型可以理解人类用自然语言描述的各种音频处理需求。
这个机制的核心是将每个音频任务转换为"指令-输入-输出"的标准格式。指令部分用自然语言描述任务要求,输入部分提供需要处理的音频材料,输出部分给出期望的结果。这种格式就像是人与AI之间的标准化沟通协议。
为了让这个沟通协议更加灵活和自然,研究团队开发了自动指令变化生成系统。这个系统能够为同一个任务生成多种不同的表达方式。比如,对于语音情感识别这个任务,系统可以生成"这段语音表达了什么情感"、"说话人听起来怎么样"、"从声音中你能感受到什么情绪"等多种不同的指令表达。
这种多样性训练让AI模型能够适应不同用户的表达习惯。有些用户喜欢直接下达指令,有些用户习惯提出问题,还有些用户倾向于使用更礼貌的请求方式。通过多样化的指令训练,模型能够理解这些不同的表达方式,提供一致的高质量服务。
在技术实现上,研究团队使用了先进的语言模型来生成指令变化。他们首先为每个任务创建基础的指令模板,然后使用GPT-4和LLaMA等大语言模型生成更多的表达变化。这个过程就像是请多个语言专家为同一个任务编写不同版本的说明书。
为了保证生成指令的质量,研究团队还建立了严格的验证机制。每个生成的指令都需要通过格式检查、语义一致性检查和任务适配性检查。只有通过所有检查的指令才会被纳入最终的训练数据集。
特别值得注意的是,研究团队在设计指令格式时充分考虑了音频任务的特殊性。音频任务往往需要处理时间序列信息,有些任务还需要同时处理多个音频输入。为了应对这些复杂情况,他们设计了灵活的输入输出格式,能够处理各种复杂的音频任务需求。
五、数据规模与任务覆盖的突破性成就
Audio-FLAN在数据规模和任务覆盖范围方面实现了前所未有的突破。整个数据集包含超过1亿份训练样本,覆盖80个不同的音频任务,这个规模在音频AI领域是史无前例的。
从数据来源的角度来看,研究团队从52个不同的公开数据集中收集了材料。这些数据集涵盖了从学术研究到工业应用的各个方面,确保了数据的多样性和代表性。就像建造一个世界级的博物馆需要从全球各地收集珍贵的藏品一样,Audio-FLAN的建设也需要整合来自世界各地的高质量音频数据。
在语音领域,数据集包含了多种语言和方言的语音材料。从标准的普通话和英语,到各种地方方言,再到多语言混合的语音场景,这种多样性确保了训练出的模型具有广泛的语言适应能力。数据还涵盖了不同年龄、性别、情感状态的说话人,以及各种录音环境和音质条件。
音乐领域的数据更加丰富多彩,包含了从古典音乐到现代流行音乐,从西方音乐到东方传统音乐的各种风格。数据集中既有专业录音室制作的高质量音乐,也有现场演出的录音,还有各种乐器的独奏和合奏片段。这种多样性确保了模型能够理解和处理各种音乐风格和制作质量的音频。
声音领域的数据则涵盖了我们日常生活中可能遇到的各种声音场景。从城市街道的嘈杂声音,到自然环境中的鸟虫鸣叫,从工业设备的机械声音,到家庭生活中的各种声响,这些声音数据为模型提供了丰富的现实世界音频体验。
在任务分布方面,理解类任务和生成类任务的数量相对均衡,但在样本数量上存在一定差异。理解类任务拥有约6240万个训练样本,而生成类任务有约4600万个样本。这种分布反映了当前音频AI领域的发展现状:理解类任务的数据相对更容易获得,而生成类任务的数据制作成本更高。
从领域分布来看,语音领域占据了绝对主导地位,拥有超过1亿个训练样本。这主要是因为语音数据在各种应用场景中更容易收集,而且语音识别和语音生成技术的发展相对更加成熟。音乐领域拥有约217万个样本,声音领域拥有约591万个样本。
研究团队特别注重数据质量的控制。他们不仅收集了大量数据,还对数据进行了严格的质量筛选和标注验证。对于一些没有现成高质量标注的任务,研究团队还进行了人工标注或者使用先进的自动标注技术。这种对质量的严格把控确保了训练数据的可靠性。
另一个值得注意的创新是时间序列任务的引入。传统的音频任务往往关注整体的音频特征,而Audio-FLAN引入了大量需要分析音频时间变化的任务。比如,分析音乐中每个时间点的和弦变化,或者标注声音事件的发生时间。这种时间维度的分析能力是音频AI的重要特征。
六、技术架构与训练方法的创新
Audio-FLAN在技术架构设计上采用了多项创新方法,确保能够有效地训练出统一的音频-语言多模态模型。整个技术架构可以比作设计一个能够同时理解多种"语言"的翻译系统,这些"语言"包括人类的自然语言、音频信号、以及各种任务指令。
在数据预处理阶段,研究团队面临的首要挑战是如何统一处理来自不同源头的音频数据。这些数据在采样率、音质、长度、格式等方面都存在巨大差异。研究团队开发了一套标准化的预处理流程,就像建立一个统一的"语言标准",确保所有音频数据都能以一致的格式进入训练系统。
音频编码是整个系统的核心技术之一。传统的音频处理方法通常将音频信号转换为频谱图像,然后使用图像处理技术进行分析。但这种方法在处理音频生成任务时存在局限性。研究团队采用了更先进的音频标记化技术,将音频信号转换为离散的标记序列,这样就能够像处理文字一样处理音频信号。
在模型架构设计上,Audio-FLAN采用了统一的多模态架构,能够同时处理文字指令和音频信号。这个架构的设计灵感来源于近年来在大语言模型领域取得的成功经验。模型需要能够理解自然语言指令,分析输入的音频内容,并根据任务要求生成相应的输出。
训练方法上的一个重要创新是指令微调技术的引入。这种技术最初在文本AI领域获得巨大成功,现在被首次系统性地应用到音频领域。通过指令微调,模型不仅学习如何处理特定的音频任务,更重要的是学习如何理解和执行各种形式的任务指令。
为了处理音频任务的多样性,研究团队设计了灵活的输入输出格式。对于理解类任务,模型的输入是音频信号和任务指令,输出是文字描述或分类结果。对于生成类任务,模型的输入是文字描述或音频提示,输出是合成的音频信号。这种统一但灵活的格式设计是实现多任务学习的关键。
在训练过程中,研究团队还采用了多阶段训练策略。首先进行大规模的预训练,让模型学习音频和语言的基本对应关系。然后进行任务特定的微调,让模型掌握各种具体任务的处理方法。最后进行指令微调,提升模型对各种指令表达方式的理解能力。
为了提高训练效率和模型性能,研究团队还使用了一些先进的技术技巧。比如,他们使用了渐进式训练方法,从简单任务开始逐步增加任务复杂度。他们还采用了多任务学习策略,让模型在学习一个任务的同时也能从其他相关任务中获得有用的知识。
数据增强技术也是提升模型鲁棒性的重要手段。研究团队开发了专门针对音频数据的增强方法,包括音频速度调整、音调变化、噪声添加、音量调节等。这些增强方法帮助模型适应各种实际应用场景中可能遇到的音频变化。
七、实验结果与性能表现
虽然这是Audio-FLAN的初步发布版本,研究团队主要关注的是数据集的构建和方法论的建立,但从已有的分析结果可以看出这个系统的巨大潜力。
从数据覆盖范围来看,Audio-FLAN在任务多样性方面取得了显著突破。相比之前最大的音频指令数据集,Audio-FLAN的任务数量增加了数倍,样本数量更是达到了前所未有的规模。这种规模的提升不仅仅是数量上的增长,更重要的是为训练真正通用的音频AI模型提供了可能。
在任务分布分析中,研究团队发现了一些有趣的现象。语音领域的任务主要集中在内容理解和语言识别上,占到了该领域任务的67.6%。这反映了当前语音技术应用的主要需求,也说明了语音内容分析在实际应用中的重要性。
音乐领域的任务分布更加均衡,乐器识别和音色分析任务占比最大,达到30.5%。这表明音乐AI的应用更加关注音乐的表现力和艺术特征,而不仅仅是基础的识别功能。民族音乐学相关的任务也占据了重要比例,这体现了Audio-FLAN对文化多样性的重视。
声音领域的任务主要集中在场景理解上,占到了33.4%。这说明环境声音分析在智能系统中有着重要应用,比如智能家居、安防监控、环境监测等场景。
从技术角度来看,Audio-FLAN引入的指令变化生成技术显著提升了训练数据的多样性。通过自动生成多种表达方式,每个任务平均可以产生5-10种不同的指令变化。这种多样性训练帮助模型更好地理解人类的各种表达习惯,提高了实际应用中的用户体验。
研究团队还分析了不同任务类型的学习难度。总体而言,理解类任务的学习相对容易,因为这些任务有明确的标准答案。生成类任务的学习难度更大,不仅需要理解输入内容,还要能够创造性地生成高质量的音频输出。
在跨域任务处理能力方面,Audio-FLAN展现出了独特的优势。传统的音频模型通常只能处理单一领域的任务,而Audio-FLAN训练的模型理论上能够在语音、音乐、声音三个领域之间进行知识迁移和任务泛化。
时间序列任务的引入也带来了新的技术挑战和机遇。这些任务要求模型不仅要理解音频的整体特征,还要能够分析音频随时间的变化模式。初步分析表明,这种时间维度的建模能力对于提升音频AI的智能水平具有重要意义。
推理类任务的表现则展现了Audio-FLAN的高级智能潜力。这些任务需要模型进行逻辑推理和比较分析,而不仅仅是简单的模式识别。比如,比较两段音乐的节奏快慢,或者根据音乐描述在特定时间点生成相应的音乐内容。
八、对未来音频AI发展的深远影响
Audio-FLAN的发布标志着音频人工智能领域进入了一个全新的发展阶段。这个突破性的数据集和训练方法不仅解决了当前音频AI面临的主要挑战,更为未来的发展奠定了坚实的基础。
从技术发展的角度来看,Audio-FLAN最重要的贡献是证明了统一音频-语言模型的可行性。在此之前,音频AI领域一直被分割成若干个独立的子领域,每个子领域都有自己的技术路线和应用场景。Audio-FLAN的出现表明,我们完全可以构建一个类似于GPT这样的通用音频AI系统,能够理解各种音频任务指令并提供高质量的服务。
这种统一性带来的好处是多方面的。首先是开发效率的提升。以前,如果要构建一个包含多种音频功能的应用,开发者需要集成多个不同的AI模型,每个模型都有自己的接口和使用方法。现在,一个统一的Audio-FLAN模型就能处理大部分音频任务,大大简化了应用开发的复杂度。
其次是性能的提升。通过多任务学习,模型能够在不同任务之间共享知识和表征。比如,在语音识别任务中学到的语音特征提取能力可以帮助改善语音情感识别的性能;在音乐分析中学到的节奏理解能力可以提升音乐生成的质量。这种知识共享机制是传统单任务模型无法实现的。
从应用场景的角度来看,Audio-FLAN开启了许多全新的可能性。在智能助手领域,未来的语音助手不仅能够理解用户的语音指令,还能分析用户的情感状态,甚至根据需要生成个性化的音频内容。比如,当用户感到疲劳时,助手可以自动播放舒缓的音乐;当用户需要集中注意力时,助手可以提供适合的背景音效。
在教育领域,Audio-FLAN技术可以开发出更加智能的语言学习系统。这样的系统不仅能够纠正学生的发音错误,还能分析学生的语音特征,提供个性化的学习建议。同时,系统还能生成各种语音练习材料,帮助学生在不同场景下练习语言技能。
音乐创作和制作领域也将迎来革命性的变化。音乐制作人可以使用自然语言描述他们想要的音乐效果,AI系统就能生成相应的音乐片段。这不仅降低了音乐创作的技术门槛,也为音乐创作提供了全新的工具和方法。
在医疗健康领域,Audio-FLAN技术可以用于语音疾病诊断、心理健康评估、康复训练等方面。通过分析患者的语音特征,系统可以帮助医生诊断某些疾病,或者监测患者的康复进展。
无障碍技术的发展也将从中受益。对于视觉或听觉障碍人士,Audio-FLAN技术可以提供更加智能和个性化的辅助服务。比如,为视觉障碍人士提供更加准确和详细的环境声音描述,或者为听觉障碍人士提供高质量的语音合成服务。
从社会影响的角度来看,Audio-FLAN的普及可能会改变我们与数字设备交互的方式。随着音频AI技术的成熟,语音交互可能会成为人机交互的主要方式之一。这不仅会影响软件和硬件的设计理念,也会改变我们的生活和工作习惯。
研究团队还特别强调了开放性和可持续发展的重要性。Audio-FLAN数据集完全开放给研究社区使用,并且研究团队承诺会持续更新和扩展数据集内容。这种开放的态度有助于推动整个音频AI领域的快速发展,让更多的研究者和开发者能够参与到这个激动人心的技术革命中来。
说到底,Audio-FLAN不仅仅是一个数据集或者一种训练方法,它更像是音频AI领域的一次范式转换。就像当年ImageNet推动了计算机视觉的发展,BERT和GPT推动了自然语言处理的进步一样,Audio-FLAN很可能会成为音频AI发展史上的一个重要里程碑。它为我们展示了一个未来的愿景:一个能够像人类一样灵活处理各种音频任务的AI助手,它不仅能听懂我们说什么,还能理解我们的情感,甚至能够根据我们的需要创造出美妙的声音。这个愿景正在逐渐变为现实,而Audio-FLAN就是实现这个愿景的重要一步。
Q&A
Q1:Audio-FLAN是什么?它和普通的音频AI有什么区别?
A:Audio-FLAN是由香港科技大学等机构联合开发的大规模音频指令训练数据集,包含80个不同任务和超过1亿个训练样本。与普通音频AI只能处理单一任务(比如只会语音识别或只会音乐分析)不同,Audio-FLAN能训练出像ChatGPT那样的通用音频助手,可以同时处理语音、音乐、声音的理解和生成任务。
Q2:Audio-FLAN能应用在哪些实际场景中?
A:Audio-FLAN的应用场景非常广泛,包括智能语音助手(理解情感状态并生成个性化音频)、音乐创作(根据文字描述生成音乐)、教育领域(个性化语言学习系统)、医疗健康(语音疾病诊断)、无障碍技术(为视听障碍人士提供辅助服务)等。它可以让AI像人类一样灵活处理各种音频相关的任务。
Q3:如何获取和使用Audio-FLAN数据集?
A:Audio-FLAN数据集完全开放给研究社区使用,可以通过HuggingFace平台(https://huggingface.co/HKUSTAudio)和GitHub(https://github.com/lmxue/Audio-FLAN)获取。研究团队承诺会持续更新和扩展数据集内容,让更多研究者和开发者能够参与到音频AI技术的发展中来。
上一篇:佐治亚理工学院团队揭秘AI"读心术":让机器看透图片背后的故事
下一篇:德州大学团队用强化学习造出"六边形魔法",让量子计算机的错误修正效率提升73倍