【科大讯飞重磅来袭】AudioFly文本即生成音效，44.1kHz超高保真让文字瞬间“发声”！ | MYAIGC

type

Post

status

Published

date

Sep 27, 2025

slug

summary

tags

category

技术分享

icon

password

AudioFly：科大讯飞推出的文本生成音效AI模型

AudioFly 是由科大讯飞开发并开源的一款先进人工智能模型，专门用于根据文本描述生成高质量的音频效果。该模型基于潜在扩散模型架构构建，具备10亿参数规模，通过大量且多样化的音频与文本数据进行训练，包括 AudioSet、AudioCaps、TUT 等公开数据集以及部分内部专有数据。

借助 AudioFly，用户可以轻松将文字转化为清晰逼真的音效内容，支持高达44.1kHz的采样率输出，确保音频质量满足专业需求。模型不仅能准确理解简单的声音描述，例如“钟表滴答声”，还能处理复杂的环境声音，比如“城市交通噪声”。在 AudioCaps 基准测试中，AudioFly 的表现超越了此前主流的音频生成模型，证明其在生成能力和精准度方面的卓越性能。

AudioFly 的应用范围非常广泛，涵盖短视频制作、有声读物、游戏音效设计、广告配乐等多个领域，能显著提升内容创作效率和作品吸引力。

主要功能特点

文本驱动的声音生成：只需输入文字描述，即可快速获得匹配的音频效果，实现从文本到声音的无缝转换。

高保真音频输出：支持高达44.1kHz采样率的音频生成，确保每个细节都清晰可辨。

多场景灵活适配：无论是单一事件还是复杂情境的音效，都能实现精准还原。

卓越的模型性能：在权威基准测试 AudioCaps 中，综合评分超过现有主流模型。

创作领域全覆盖：适合短视频、播客、游戏、广告等多种内容形式的音效制作。

核心优势一览

出色的音质表现：生成音频采样率高达44.1kHz，音质纯净真实，适合对音频质量要求较高的应用场景。

高度匹配文本描述：能够准确理解并还原用户输入的文字内容，生成音效与描述保持高度一致性。

强大场景适应能力：不仅支持简单事件的声音模拟，也能应对复杂背景声音的构建需求。

领先的技术指标：在 AudioCaps 测试中表现出优于同类模型的综合性能，生成效果更自然流畅。

模型获取地址

AudioFly 已在魔搭社区上线，用户可以通过以下链接访问模型详情： https://modelscope.cn/models/iflytek/AudioFly

适用对象

短视频创作者：快速生成视频所需音效，增强内容表现力。

游戏开发团队：为虚拟场景添加真实感十足的背景声音，提升游戏沉浸体验。

广告创意人员：根据广告内容定制背景音乐或音效，强化观众感知。

影视后期工作者：丰富画面氛围，提升作品整体质感。

在线教育从业者：通过插入生动音效，增强课程趣味性和互动性。

作者:数字Baby
链接:myaigc.top/article/27bb7c2d-0e98-810a-94d1-e9690fd22597
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

腾讯Hunyuan3D‑Omni震撼发布：一键多模态精准控制，秒产高质3D模型，颠覆游戏影视创作！腾讯全新「Hunyuan3D‑Omni」震撼发布：一键多模态生成高保真3D模型，游戏影视设计秒变神器！

Loading...

目录

0%

数字Baby

AIGC加速人类文明

最新发布

编程屠榜！智谱王炸开源GLM-4.7-Flash，30B参数仅激活3B，本地运行神器！

别再忍受渣音质！这52KB的开源神器，让电话秒变录音棚。

颠覆认知！英伟达发布能“抢话”的AI，这才是真正的人类对话！

AI绘画大变天！半秒出图，消费级显卡就够，FLUX.2 Klein杀疯了！

谷歌重磅开源！这款能看图说话的翻译AI，让55国语言壁垒瞬间瓦解

AI训练模式被颠覆！高德阿里首创“锦标赛”机制，专治开放式难题！

公告

🎉Dify/n8n视频课程已经上线🎉

-- 感谢您的支持 ---

👏欢迎体验👏

🎉更多惊喜🎉

咨询微信:myaigcpro

目录

0%