随着网络的发展,尤其是近年来短视频的火爆,不断衍生出了很多周边配套软件,比如智能剪辑、AI配音等,似乎一切都可以用软件来完成。
不知道从什么时候起,魏然发现自己常刷的短视频APP中,出现频率最高的声音从各种洗脑神曲变成了影视剧剪辑。
而且很多比如XX影视、XX电影说这些粉丝上千万的账号,拥有一个共同点——旁白配音高度相似。
魏然一度疑惑,真的有人有这么多精力给数量如此庞大的短视频配音吗?直到后来有一次在和一个做短视频的朋友聊天时,将这个疑问抛给朋友。
“你真的不知道这些都是配音软件合成的声音吗?”对方笑他孤陋寡闻,他也恍然大悟。
在他有限的认知里,软件语音不就是类似于天猫精灵、Siri那种效果吗?机械、僵硬、古怪,一听就是机器人的声音。但是短视频中的配音却声音流畅、音色出众,几乎和真人无异,两者完全不是一个档次。
这究竟是怎么回事?
01 短视频配音的秘密
想了解这些声音是怎么来的,魏然采取了追根溯源的办法,去找这些影视大V们的供应商,结果发现其实不少账号都是一家名为“魔音工坊”配音软件的客户。
官方资料介绍,魔音工坊是一款短视频达人联袂推荐的AI配音神器,能一键将文本转换为音频。它能帮助用户快速、高效制作高质量的音频,从而给短视频、有声书等高效配音。
在其官网上也列举了几十个粉丝过百万的抖音影视剧大V客户。
相比魔音工坊,其背后的一家公司在科技圈很多人都不会陌生,它就是出门问问。这是一家由Google投资的人工智能公司,前几年也是人工智能行业的当红炸子鸡之一,主要的产品是智能手表、智能音箱等硬件产品。
出门问问是其对标Google NOW,亚马逊Alexa创业的一家公司,魔音工坊是2020年由出门问问推出AI语音系列产品。
2020年前后是出门问问最艰难的时刻,创始人李志飞提到这是他人生的至暗时刻,此前出门问问突破10亿美元估值后开始疯狂扩张,很快遭遇巨大的亏损,出门问问开始急刹车,大幅裁员、砍门店,从千人规模精简到500人、线下门店全部关掉。可以猜想魔音工坊就是出门问问为了挽救公司困局而推出来的一款产品。
魔音工坊的原理很简单,以AI语音技术模拟具有清晰性格特征的真人语音,进行AI音频内容创作。简单的来说就是先找一些音色出众的配音人录制一些声音,然后用机器学习的手段训练获得声音的特征。用户使用的时候,只需要导入一段文字,然后略微调整重音、停顿等问题,就可以生成一段和配音人相似的声音片段了。
这里面需要用到一个关键技术叫做Deepfake Voice,也称为语音克隆或合成语音,其目的是使用AI生成一个人的语音。
业内人士介绍,初代的人工智能语音,干涩、生硬、机械感格外强。但是在Deepfake Voice(声音克隆)技术加持下,AI生成的语音如今已经可以近乎完美复刻真人的声音。传统的语音合成通常使用两种基本技术,即拼接合成和共振峰合成。
而深度学习和人工智能的出现将TTS(语音合成)技术带到了新的高度,可以在音调和相似度上非常精确地复制人声的地步,也就促成了我们听到的近乎以假乱真的人工智能语音出现。
不过出门问问把自己的技术称之为MeetVoice (Mobvoi End-to-End TTS Voice) ,也就是采用基于神经网络的声码器 Meet-Vocoder,可以实现高度接近真人的声音素质。
有了这门技术,一门生意就出现了。为了让这些声音变现,魔音工坊建立了声音商店,用户可以按天/月/年付费。
02 蓬勃发展的“机器音”
随着抖音视频魔性的声音在大街小巷响起的时候,短视频配音产业也迎来了众多玩家的入局。
眼下短视频配音领域可以有三大阵营的玩家:
第一类是来自人工智能公司,包括出门问问、微软、科大讯飞,这些公司在人工智能语音上都有多年的积累,做短视频配音属于降维打击。由于功底扎实,推出的产品品质较高,大多采取付费使用的模式。
第二类同样是采用付费模式的是一些小型创业公司或者工作室,这些公司大多名不见经传,搜索引擎一搜一大票,产品良莠不齐。
第三类是短视频平台自己推出的带有配音功能的剪辑软件,比如抖音的剪映、腾讯的智影等等特点就是使用免费。
玩家蜂拥而来,瞄准的就是处于高速增长阶段的短视频配音市场,近年来“X分钟看完XX”等这类视频大受欢迎,很多创作者有了配音的需求,讯飞和出门问问争抢的就是这类客户。
实际上不光是在中国,AI语音在全球都有着广阔的市场空间,除了短视频之外还包括影视剧、广告、游戏等众多使用场景,根据Verified Market Research,仅电影配音市场的价值从2020年就开始以5.6%的复合年增长率增长,到2027年可达36亿美元。
因此AI语音行业在国内外都处于高峰发展的阶段。今年2月份韩国语音和视频合成初创公司Neosapience获得2150万美元的B轮融资,该公司于2017年成立,其语音视频合成平台Typecast使用户能够将文字转化为AI合成的语音和视频,拥有170名说韩语和英语的配音员,大多数用户是创作者和企业客户。
今年6月音乐流媒体平台Spotify宣布收购人工智能语音初创公司Sonantic,后者是一个动态的人工智能语音平台,通过AI技术可将文本转换为逼真的声音。Spotify表示,高质量的语音对增加Spotify的收听市场份额非常重要。
03 AI会杀死人工配音吗?
在UP主和短视频创作者热烈欢迎AI配音技术的同时,也有一些群体对于这门技术充满担忧,其中就包括被AI配音直接冲击的人工配音行业。
相对于人工配音,Ai配音最大的优势就是成本低廉。
淘宝上面人工配音商家的价格标准大约是30-60元/100字;京东上面的配音商家的价格标准大约是40-80元/100字。而魔音工坊等配音软件没有字数要求,按照时长来付费,每天不到2元钱。
其次,AI配音相比人工配音在效率和准确度上也有很大的优势。传统人工配音耗时费力、专业设备要求高、在配音的过程中也容易出现准确度不够等问题。但AI人工智能技术产量更高,而且可以做到100%准确。
AI配音还有一点是传统配音所无法企及的,那就是它可以依靠人声合成技术复原逝者的声音,或者让很多先天语言障碍的聋哑人通过技术的合成拥有自己的声音。中央电视台在2018年播出了纪录片《创新中国》是世界上第一部利用人工智能模拟人声的纪录片,就是利用已故知名播音员李易。
英国演员工会对430个会员进行了一项调查,发现93%的配音演员都觉得人工智能对自己的工作机会产生威胁。比如2021年7月份知名游戏《巫师 3:狂猎》发生了一次ai配音风波,有游戏 Mod 开发者发布了自己制作的全新《巫师 3》 额外任务包并且利用ai进行配音,在声优们中引发轩然大波。配音演员 Natalie Winter表示,“如果 AI 的声音变得足够好,可以被广泛使用,那么(真人声优的)机会只会进一步减少。”
不过类似于魔音工坊这样的AI语音短期内真的能大杀四方吗?
也未必。
有人认为,目前ai配音取代人工配音还为时尚早,毕竟人工在配音感情更为充沛,而且相对于机器更具有主观能动性,语气轻重急缓,风格变化多样。
而且魔音工坊这类配音工具来说,未来发展本身面临天花板。
青年配音演员李盛仁则对此持乐观态度,他表示,科技的进步最大的好处就是解放了人类的双手,但是人类的情感是科技无法替代的,无论科技发展到哪一步,这一点始终不会变,因为科技不可能像人类一样拥有感情。李盛仁毕业于中原工学院学习播音主持专业,2016年出道,曾为腾讯视频纪录片《料理的秘密》解说,其配音的广告作品《品品香》在CCTV-1新闻联播黄金时段播出,今年还成立了公司后,建立了配音工作室。
“这个行业最大的问题就是行业比较小众,在短视频爆发之前,配音在国内是一个非常小众的行业。普通用户了解最多的就是影视配音。”有行业人士认为,配音依然是一个非常细分的需求,因此难免陷入工具化的困局。
他举例认为,魔音工坊这样的短视频配音平台,未来处境可能和天眼查这种个人与企业信息查询工具所面临的处境一样,“解决的问题非常窄,市场不够大,未来能够存活的玩家其实很有限。”