配音资讯
谷歌真 · AI 配音神器来了!自动看懂画面、对齐音频,能为任何视频生成无数音频

当然,V2A 也能够根据提示词生成所需的音频。使用者可以通过输入 " 正面提示词 " 来引导模型输出所需的声音,或输入 " 负面提示词 " 来引导其避免出现不需要的声音,这给了使用者更大的控制权。
与其它 AI 音频生成工具不同,V2A 在生成音频后无需人工对齐音频视频,而是可以直接自动将音频与画面对齐。
但谷歌 DeepMind 也承认,这一系统目前仍然存在很大的局限性。如果输入的视频质量不高,那么输出的音频质量也会出现明显的下降。他们认为需要进一步提升系统安全性并补齐当前 V2A 在口型同步等方面的短板,才能正式向公众发布这一系统。
谷歌发布 V2A 没过几小时,语音克隆创企 ElevenLabs 就发布了文字到音频模型的 API,并基于这一 API 做了一个 Demo 应用让公众免费使用。
与 V2A 不同的是,该应用并不能直接实现画面到音频的转换,而是利用了 GPT-4o 将视频截图转换为文字提示词,之后再输入文字转在几秒内生成多条与画面内容匹配的音频。这是基于该公司 5 月底发布的文字到音频模型打造的。
一、与自家 Veo 模型配合生成有声视频,但对复杂画面理解存在缺陷
虽然目前 Sora、Pika、可灵以及近期的 Dream Machine 和 Runway Gen-3 Alpha 等一系列视频生成模型已经能输出逼真的视频画面,但它们生成的视频都是没有声音的。
AI 工具也可以直接生成质量尚可的音频。AI 创企 Stability AI 发布的 Stable Audio Open 模型可以输出长达 47 秒的乐器演奏片段,语音克隆初创公司 ElevenLabs 发布的音频生成工具可以根据用户输入的提示词生成音频。然而,目前没有工具可以全自动将视频与音频相结合,为 AI 生成的视频配音将是让 AI 视频变得更为真实的重要一步。
谷歌 DeepMind 推出 V2A 系统就是为了解决这一问题。谷歌 DeepMind 的博客中写道,V2A 可与谷歌自家的 Veo 等视频生成模型配合使用,直接生成有声音的 AI 视频,V2A 也可用于历史档案画面配音、无声影片配音等领域。
在下方的视频中,V2A 展现出了对画面和提示词的超强理解能力。配乐营造出了提示词中紧张的恐怖片般的氛围,且音频与视频几乎完全同步。脚步声基本符合人物走动的节奏,随着画面的切换,脚步声也瞬间消失了。
谷歌 DeepMind 发布的 Demo 视频中也出现了不少破绽。下方的视频是一位鼓手在演奏架子鼓。而 V2A 生成的第一秒音频还相对符合画面中的演奏节奏和所击打的鼓,然而后面的音频却出现了不属于这一画面的声音。画面中鼓手一直演奏的是架子鼓中的军鼓,然而音频中却出现了击打架子鼓其它部分(嗵鼓)的声音。这显示出 V2A 对复杂画面的理解尚存在缺陷。
V2A 还有一个特点就是给了创作者很大的自由。它可以为任何视频输入生成无限数量的音轨,还可以给模型定义 " 正面提示 " 以引导模型输出所需的声音,或定义 " 负面提示 " 以引导其避免出现不需要的声音。
这种灵活性使用户可以更好地控制 V2A 的音频输出,让用户可以可以快速尝试不同的音频输出并选择最佳匹配。
二、采用基于扩散的高质量音频输出,AI 给视频加注释辅助训练
谷歌 DeepMind 的研究人员称,他们一开始尝试了自回归和扩散这两种技术路径,发现基于扩散的音频生成方法为同步视频和音频信息提供了最真实的输出结果。
V2A 系统首先会将视频输入编码为压缩表征,然后扩散模型迭代地从随机噪声中提炼音频。该过程由视觉输入和自然语言提示引导,以生成高度符合提示词的音频。最后,音频输出被解码,转换为音频波形并与视频数据组合。
为了生成更高质量的音频并增加引导模型生成特定声音的能力,谷歌 DeepMind 的研究人员在训练过程中添加了更多信息。这些信息是 AI 根据视频生成的注释,包括对画面内声音的详细描述和画面中的口语对话的记录。
通过使用视频、音频和附加注释进行训练,V2A 系统学会了将特定的音频事件与各种视觉场景相关联,同时还能理解提示词中提供的信息。
博客中写道,V2A 系统可以理解原始像素,将文本提示变为可选项。这意味着 V2A 可以直接看懂视频画面并据此生成音频。这一系统也不需要人工将生成的声音与视频对齐,创作者不需要经历繁琐的调整过程。
尽管目前这一系统已经初具成效,但 DeepMind 的研究人员认为目前这一系统仍然存在缺陷。它的音频输出质量严重依赖于视频输入的质量,视频中的伪影或失真会导致音频质量的严重下滑。
此外,研究人员还在不断改进系统的口型同步能力,目前 V2A 在这方面表现不佳。在下方的视频中,虽然 V2A 只生成了一位小女孩的说话声,但是画面中所有人物的口型都在变化,并且与说话内容并不一致。
虽然 V2A 可以按照输入文本生成人物对话的音频,并基本与画面中角色的口型同步。但口型同步的效果与视频生成模型相关,如果视频生成模型没有对口型的能力,口型同步的效果便会大打折扣。
三、ElevenLabs 开源视频配音应用,部分效果不如 V2A
5 月 31 日,同样在 AI 声音生成赛道上的 ElevenLabs 发布了他们最新的 AI 音频模型,可以通过文本提示生成音效、乐器演奏片段和各种角色声音。
在 ElevenLabs 发布的宣传片中,他们的 AI 音频模型展现出了不俗的能力。它能一次生成多段音效供创作人员选择,在口型同步上表现也不错。ElevenLabs 认为这一模型在游戏行业和影视行业中有较大的应用前景。
就在谷歌 DeepMind 发布 V2A 系统后不久,ElevenLabs 就上线了他们的文本到声音效果 API,并基于 API 做了一个开源的视频到声音效果的应用。智东西第一时间测试了这一应用的生成效果,我们将谷歌 Demo 中的视频消音后输入了 ElevenLabs 的开源应用,让其生成音频。
ElevenLabs 的研究人员称,他们的视频到声音应用在不到一天的时间内开发出来了。该应用自动将视频按照每秒截取四帧的频率截图,并发送给 GPT-4o 模型,将画面内容转为文字提示词。提示词将输入到他们的文字到音频模型中,模型会生成符合画面内容的音频。
结语:V2A 系统尚不对外开放,开发者需要对模型潜在风险负责
谷歌 DeepMind 目前并不打算向公众开放 V2A 系统。他们目前在与创作者进行沟通,收集创作者的看法与建议然后进一步优化 V2A 系统。
谷歌 DeepMind 强调,他们特别将 SynthID 工具包(谷歌标记 AIGC 的特殊水印)纳入到 V2A 研究中,为所有 AI 生成内容添加水印,防止滥用该技术的可能性。
ElevenLabs 的音频模型和谷歌 DeepMind 的 V2A 系统的相继发布,或将给内容创作的生态带来巨大的改变。而正如之前所有 AI 模型那样,音频生成模型也面临着滥用的风险。这将是摆在开发者面前的重要挑战。
原标题:谷歌真 · AI 配音神器来了!自动看懂画面、对齐音频,能为任何视频生成无数音频 更多热点信息查看芒果配音官网,配音联系QQ:2853773900
【免责声明】 以上整理自互联网,与本站无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。(我们重在分享,尊重原创,如有侵权请联系 我们在24小时内删除。联系邮箱:2853773900@qq.com)
4471
配音资讯
喜播教育联合春秋时代影业打造的第35期有声主播高级研修班,已在北京市朝阳区国玉大酒店成功举办。作为累计服务超700万学员的新职业在线教育品牌,喜播此次跨界联动,
4470
配音资讯
几天前,由地理类科普自媒体“星球研究所”推出的视频《嘛是天津?》全网刷屏,按惯例,“星球研究所”以各省市为主角的科普视频系列大多起名《什么是(地名)》,网友们笑
4469
配音资讯
上周的北美电影市场终于迎来日本动画大片《鬼灭之刃剧场版无限城篇第一章猗窝座再来》的全面公映。自7月18日该片在日本本土上映以来,北美众多《鬼灭之刃》的粉丝就引颈
4454
配音资讯
由陈凯歌执导的电影《志愿军》系列将在今年国庆档迎来收官之作。9月8日,影片官宣9月30日全国上映,并发布定档预告及海报。不同于前两部,《志愿军:浴血和平》将解锁
4453
配音资讯
近日,动画电影《三国的星空第一部》发布配音特辑及海报,正式官宣配音全阵容。檀健次用声线衔接曹操从青壮年到中年的时间跨度,演绎曹操逆袭人生十几载,刻画乱世之中大浪
4452
配音资讯
韩剧《暴君的主厨》出现明朝使臣“唐白龙”一角由韩国演员赵在允饰演,因其中文原声“稀烂到无法配合字幕观看”,制作方紧急邀请中国配音演员补救。该配音演员在社交媒体吐
4446
配音资讯
世嘉宣布,《超级忍》系列与插画家兼漫画家的YuukiKikuchi老师的联动四格漫画现已公布配音演出视频。视频中,主角“小忍”将由福山润配音,忍犬“信五”将由杉
4445
配音资讯
玩家们期盼多年的大作《空洞骑士:丝之歌》终于发售了。而在游戏的制作人员名单上,有玩家发现了一个熟悉的名字:EricBarone——而这一名字和另一款知名独立游戏
4444
配音资讯
《蝙蝠侠:阿卡姆》系列新作开发确凿。戈登局长配音演员马克·罗尔斯顿透露,团队即将启动最新正统续作制作。蝙蝠侠作为流行文化标志性英雄,其上一部主演游戏已间隔多年,
4439
配音资讯
“你打我噻,你打我噻!”还记得电影《哪吒之魔童闹海》里,那位憨态可掬、一口四川方言的太乙真人吗?这个打破传统神仙刻板印象、圈粉无数的“神仙老师”,之所以能鲜活立
4438
配音资讯
由中央宣传部、中央广播电视总台、教育部联合主办的大型公益节目2025年《开学第一课》将于9月1日20点档播出。今年是中国人民抗日战争暨世界反法西斯战争胜利80周
4436
配音资讯
9月1日,由中国国家电影局和俄罗斯联邦文化部共同主办的“2025俄罗斯电影节”在北京中国电影资料馆隆重开幕。据悉,本届电影节是2024-2025“中俄文化年”系






