首页
搜索 搜索
当前位置:热点关注 > 正文

现在热门的「可不」不属于vocaloid?所谓的最新技术「CeVIO AI」

2023-05-17 10:02:19 哔哩哔哩

笔者最后更新:2023/4/27文章编辑最后日期:2023/5/17

这是2021 CCC 圣诞日历活动第二十天的文章。


【资料图】

我是KALTE。是一名作曲家。

虽然这么说有点突然,我还挺喜欢UTAU来着。在之前也有稍微写过关于UTAU的文章。

我所推荐的UTAU音源6选 https://note.com/kalte/n/nb5a8fb3b0f2a

虽然最近不怎么能看到了,大概5年前左右出现过大量的以使用重音teto和暗音renri等等为首的UTAU的良曲,我觉得当时被这种近似人类一样的歌唱方法所震撼到的听众也不少。ポリスピカデリー(PolicePiccadilly)的「ナーヴ・インパルス」之类的,这种曲子达到过能让没有听过暗音renri唱歌的人没有办法判断和人声区别的程度……

在此处,不知道可不可以讲一点当UTAU听众的话经常会有的感受。

虽说这是在niconico上经常会出现的弹幕……

「调教好厉害!!真的是vocaloid吗!?」

就是这条。

尽管从听众这边出发看UTAU的认知度较低也是没有办法,但是VOCALOID和UTAU是不同独立的声音合成技术,VOCALOID≠UTAU这一点从UTAU发行以来经过了13年的今天也没有传播渗透开来确实让人很着急。

从作曲者角度出发,有着VOCALOID虽然是付费的但是从一般人看来音源(初音未来、镜音铃之类的这些声音的种类)的认知度较高,然后UTAU虽然是免费的但是音源的认知度和质量与VOCALOID相比逊色这些明确的区别(虽然如果是优秀的UTAU音源通过调声可以获得凌驾于VOCALOID之上的性能)。因为没有创作过曲子的人不了解这些也是正常的,但如果搞错了的人可以借此机会记一下哦。

嘛暂且搁置一下这个话题,今年(2021年)1月新的声音合成软件「CeVIO AI」被公开了。

实际上从2021年一开始「结月缘 丽」还有「IA -ARIA ON THE PLANETES-」这样使用了CeVIO AI的音源就早已公开,但是让CeVIO AI名声大噪的大概是,以KAMITSUBAKI STUDIO所属的花谱为原型于2021年7月7日登场的「可不」吧。

之前平时就有在听花谱的曲子,所以在正式发售之前我就在想「KAMITSUBAKI STUDIO,你做的好啊……」,一直有在听她的demo曲。

但是,在音源正式发售之后不久,在某位的推广广告中看到了有着这样标题的视频。

「○○○(曲名)/△△△(作曲者名)feat.可不【vocaloid原创曲】」

喂!!!!!!!

听众就算了,使用者在这种地方犯错可不行吧!!!!!!!

嘛,就因此变成这么٩(๑`^´๑)۶生气了。我还想是不是因为想要让播放量增加才故意写成这样的呢……

上面说了这么多开场白有点长了,而我想让请大家重新认知一下「CeVIO AI」是什么,因此写下了这篇文章。我会仔细说明,哪怕之前相关知识为零也能明白,可以的话请读到最后吧。

所谓TTS

在讲到CeVIO的话题之前,不知道大家对TTS这一词了解吗。

TTS是Text to Speech的略称,用日语说来就是「音声合成」(中文的话是【语音合成】)。之前说到的VOCALOID,UTAU,CeVIO AI都是TTS的一种。顺带一提,VOICEROID(结月缘、绁星灯之类的)这样的语音特化的音源也被称作是TTS。

接下来将会把TTS的例子按照初版发行的顺序先依次列举如下。

VOCALOID(2004年/歌唱特化)

SofTalk(2006年/语音特化)

UTAU(2008年/歌唱特化)※非生物音源除外

VOICEROID(2009年/语音特化)

Synthesizer V(2018年/歌唱特化)

CeVIO AI(2021年/歌唱·语音特化)

其他的话还有NEUTRINO(2020年)或者CoeFont(2021年)之类的音源,列举下去就没完没了了。不知道「ゆっくりボイス」正式名称的人应该也有很多吧。(答:SofTalk,详见ニコニコ百科) 

虽然偶尔也会有人认为UTAU或是CeVIO AI是与VOCALOID相同的,或者是属于被VOCALOID所概括的软件群体,但正如最开始所说,这三款软件是独立的声音合成技术,因此这种看法完全是错误的。

VOCALOID是由雅马哈这样的「企业」,CeVIO AI是由CeVIO Project这样的「企业团体」,UTAU是由叫做飴屋P的「个人」所研发出的。如果想要将这三款软件组合在一起谈及的话,不应该是使用VOCALOID而是应该使用歌声合成软件或者是歌声合成技术(Singing Voice Synthesis; SVS)这样的词才是正确的。(包括CeVIO AI这样只存在语音特化的音源。合成语音的技术也被称作文本到语音(Text to Speech; TTS)

「初音未来」「镜音铃」这样的角色名称,严格来讲,与其说是在TTS下属的分类,不如说是在「VOCALOID」这一声音合成软件内部分类下的音源,也就是音源的种类

对于音源,如果和研发软件的各家企业(比如说对于VOCALOID就是雅马哈)签订了许可合同之后独自开发和销售也是可以的。比如说发售在稲葉曇的「ラグドレイン」中有名的歌爱雪这一音源的,就不是有雅马哈而是叫做AHS的企业。

VOCALOID 4 歌爱yuki|产品信息|AHS(AH-Software)

虽然从了解的人看来可能很理所当然的,实际上初音未来或是镜音铃这些代表性的VOCALOID的开发公司也不是雅马哈而是一家叫做Crypton・Future・Media的公司。雅马哈,意外地在音源方面并没有研发出那么多东西,有名的也许就是buzzG的「Fairytale,」的翻唱中的VY1V4这种程度……

各软件的音源的例子我也暂且先写出来(除了SofTalk)。

◆VOCALOID:初音未来,镜音铃,镜音连,巡音luka等等

◆UTAU:重音teto,暗音renri,雪歌yufu,波音律等等

◆VOICEROID:结月缘,绁星灯,琴叶茜,琴叶葵等等

◆Synthesizer V:小春六花,弦卷maki,Saki等等

◆CeVIO AI:可不,佐藤莎莎拉,小春六花,星界,#KZN等等

(译注:其中,Synthesizer V也有赤羽艾可这样的中文音源https://dreamtonics.com/synthesizerv/,CeVIO AI详见萌娘百科https://zh.moegirl.org.cn/CeVIO))

「小春六花为什么同时存在于CeVIO AI和Synthesizer V两边呢?」虽然容易产生这样的疑问,但是这并不是笔误,而是因为同时存在「CeVIO AI的小春六花」和「Synthesizer V的小春六花」。在这种情况下,CeVIO AI是语音特化,Synthesizer V是歌唱特化的小春六花。说话的小春六花是以下视频这种感觉。

和Kanaria的Synthesizer V小春六花的表情差太多了有点搞笑哈。

我觉得看了刚刚GYARI的视频的人就能了解,也存在着结月缘、绁星灯这样横跨多个软件的音源。东北kiritan(切蒲英)在其中是数一数二地复杂,能够使用的软件如UTAU,VOICEROID,CeVIO AI,NEUTRINO等多得要死(因此对于音源就不得不获取·购买各种各样的软件)。还要开始考虑到版本的区别的话就更没完没了了。

顺带一提SofTalk有点特别,「博丽灵梦」「雾雨魔理沙」这样的名字实际上在软件内并没有写着,比如说选择灵梦的话就要按照「声质=女性1,音程=100,速度=100」这样的设定。东方Project的角色名称完全是之后标上去的。标准来自于这个网站。

Nicotalk&角色素材分发处http://www.nicotalk.com/charasozai_kt.html

把到此为止的东西总结一下,老实说尽管对于听众的话对于音源种类记不太得也没什么问题,但是可能会产生在文章开头所说过的那样的词语的误用,事先了解一下也没什么坏处。对于制作实况视频和音轨的各位,希望你们一定能了解这些所说的软件和音源的区别。

所谓CeVIO

那么,尽管差不多想开始说说CeVIO AI了,但是对在其前面的「CeVIO」还得说明一下。CeVIO AI是如上述音声合成技术的一种,而CeVIO这个词有着一下两种含义。

1.  由视频·音乐创作者团体和持有声音合成·歌声合成技术的技术人员团体实行的项目

2.  作为上述项目的一部分被发行的TTS,也就是「CeVIO Creative Studio」和「CeVIO AI」这些。

CeVIO Creative Studio简单地说,就是CeVIO AI的前身,发行于2013年。我使用CeVIO 这个词的时候,为了与CeVIO AI区分更多的是使用了上述1的含义。或者是就以「CeVIO Project」这样称呼。

虽然写着「创作者团体」「技术人员团体」,但是基本上这些都是企业。大概地说,创作这一方面主要是V-Sync和Frontier Works这两家公司,技术方面主要是Techno-speech来担任。Techno-speech,是进行着最前端的TTS研究的名古屋工业大学内的创业公司。

将要说明的主要包含类似于以下这些的项目。CeVIO AI当然也包含在这之中,但是将会在第3章说明。

CeVIO Vision(2013)

这个项目主要是在数字展板上进行双方向的会话。下面视频中是秋叶原的Animate店中叫做「佐藤莎莎拉」的角色在说话的样子。就像是聊天机器人一样的东西。

CeVIO Creative Studio(2013)

作为TTS的一种,既能够唱歌也能说话。技术上使用了HMM(隐藏马尔科夫模型,译者注:一种可以分析时序信息的统计和机器学习中常见模型)的方法。也经常被略称为「CeVIO CS」。

VoiSona(2022)

虽然现有的CeVIO Creative Studio和CeVIO AI是独立运作的软件,但它可以将CeVIO的功能如同VOCALOID一样在DAW(译者注:数字音乐工作站,一般也称宿主软件,大多数的音源、合成器都需要插入宿主软件中才能工作)中以VSTi插件(虚拟乐器技术插件)形式使用。

上面的话换个说法来讲,VoiSona发布之前CeVIO AI用户是先在CeVIO AI的软件中输出歌唱文件,再把它导入到DAW的vocal音轨中。也就是说CeVIO AI是在DAW软件的外部启动,开着CeVIO AI和DAW两个软件进行操作,因为CeVIO AI中对vocal输出的更改无法即时在DAW中反应,在制作过程中非常折磨。(因为界面都是分开的)

为了解决这一问题,VoiSona应运而生(也就是CeVIO AI的VSTi插件化)。

VSTi插件基本都是打开DAW软件后,再在DAW中作为子程序启动。这样一来,在VoiSona中进行的修正,会在DAW中即时变更,大大提升了编辑反馈的效率。对于不作曲的人来说没有特别的好处,但是对于音轨制作者来说是否能在DAW内直接操作vocal音源决定了工作效率,是非常重要的因素。

不过较为可惜的是,目前可不等现有CeVIO AI音源无法在DAW中进行使用。而是默认添加了「知声(Chis-A)」这一音源。CeVIO AI都是收费的,不过这一款可以免费使用。(如果想要使用AiSuu和#kzn等其他音源时需要购买另外的音源软件许可证。)

所谓CeVIO AI

CeVIO AI是上述的项目中登场的一种TTS。其中有只能用于唱歌的音源,也有只能用于语音的音源,还有两边都能使用的音源。这一点和CeVIO Creative Studio是一样的。

作为差别的地方,刚刚写到CeVIO Creative Studio使用了HMM,这边CeVIO AI则是使用了DNN(deep neutral network,深层神经网络)或者CNN(convolution neutral network,卷积神经网络)的方法。一言以蔽之,也就是「深度学习」这一技术。虽然HMM也是深度学习。

省略掉算法的解释说明,简单而言,该系统使用计算机根据录制的声音创建「歌手个性」的模型,即使有未知的文本(音乐创作中的歌词输入阶段)输入,人工智能技术也能输出再现歌手个性的声音。 神经网络(neutral network),顾名思义,使用计算机网络来模拟人脑的结构。 如果你对数学有点自信,可以去查一查。

所说的DNN或是CNN方法本身虽然之前就有,但是在CeVIO Creative Studio发行2年之后的2015年左右急速发展,开始在不仅限于TTS而是广阔的领域中都有所应用。

比如说被评价为比Google翻译性能更好的翻译服务「DeepL」,就是使用了CNN的技术。DNN或是CNN是用于再现「真人的感觉」最适合的方法,我最近看到了能阐释这件事的推文因此转载在这里。

(图中文段翻译:在日语中,「領収書」和「receipt」是不一样的概念,正如「battery」和「电池」是不一样的概念。尽管这样很麻烦想要废除这种东西,但是在这种情况下「性别」和「gender」也好像很快作为不同的概念被确立下来了。)

(译者注:日语中,基于英语的receipt一般更多指小票和收据而基于汉字的領収書虽然也指收据,但是偏向于发票;基于外来语的battery指可充放电电池而基于汉字的电池指一次性电池;而近年来性别一般指生理性别而gender指心理主观性别;此处deepl可以对Google翻译中已经翻译成英语后完全相同的两个词再重新翻译成日语的时候再次从相同的英语词汇中解读出不同的日语词汇对应很厉害)

CeVIO AI也是一样,比如说是可不,被认为是构建了从花谱的歌唱数据中学到的「花谱的感觉」的神经网络。网络学习训练需要大量的音乐数据和高性能的CPU,这种事只能由企业或者大学才能做到。例如同样是使用了神经网络的声音合成技术·NEUTRINO的叫做「No.7」的音源,就是由担任声优的小岩井小鸟创作了50首左右的曲子得到的。

通过这些技术,就能创作出超越CeVIO Creative Studio性能的TTS,这也即是CeVIO AI的构造。

※另外CeVIO AI等软件基本上并没有进行开源,不过目前存在着一种叫做「NNSVS」同样使用了AI框架且开源的歌声合成技术。因为是面向研究者公开的东西,如果你对编程很熟悉,机器学习和Python也有一定自己的理解,或许看了代码多少能明白其中的构造。创作者的话我还是推荐CeVIO AI和NEUTRINO之类的软件。

作为我所属的社团的工作,我创作了在叫做「M→Fes2021」的活动上使用的OP曲,而在创作期间我第一次尝试使用了可不就稍微写一写使用的感受吧(顺带宣传一下)。

CeVIO AI合成音乐的优点来说就是在还没有调教的时候声音就已经达到了很好的质量了。尽管偶尔会产生音高输出的错误或者是音量的平衡不稳定的问题,出现的频率只需要大概两个小时左右的程度就能够完成修正工作了所以没有那么让人在意。

但正如刚才所说,CeVIO AI是模仿「真人的感觉」的TTS,无法演唱cosMo暴走P的「初音未来的消失」或者是avtechno的「Boku-Boku.β」这样的乐曲。反过来VOCALOID并没有使用DNN或是CNN这样的统计模型,只是采用了将各处的发音对应的波形连接的「波形连接型声音合成」,这方面性能更好(没有特别注意到发音和发音的连接这一缺点反而成为了长处的感觉)。

对我个人而言我认为这所有的TTS,各有长处,各自有特点这一点很有魅力,我觉得不能说一概而论地说哪边的技术更加先进。正如金子美玲也说过「我们不一样,我们都好」。

※2022年10月发售的「VOCALOID 6」开始搭载了由AI辅助的歌声合成机能,刚开始我还以为“诶!?波形连接型合成要被撤掉了吗!?”,不过后面才知道保留了以往的VOCALOID引擎,使用者可以根据需要选择波形合成引擎和AI引擎进行合成。真是太好了。

然后尽管主要是歌唱音源收到很多的关注,但是语音音源也不能轻视。CeVIO AI语音音源中存在着感情的参数,能够自如地表现出声音中的情感。嘛,虽然VOICEROID里也有这个功能就是啦。

2023年4月的现在,已经发行的或是预定发行的音源包括歌唱型,语音型和两边兼可的类型合起来一共大约25类。接下来,我会列举几个我个人比较喜欢的。

星界」是在2022年4月发售,以和花谱一样隶属于KAMITSUBAKI STUDIO的异世界情绪T的声音作为模型制成的CeVIO AI歌唱音源。作为同事们的理芽,幸祜,春猿火也在此后相继发表了名为「裏命」「狐子」「羽累」的音源制作决定。KAMITSUBAKI STUDIO的全员声音克隆计划似乎正在稳步进行。

由阳炎系列而出名的1st PLACE所推出的「IA -ARIA ON THE PLANETES-」虽然歌唱和语音两方面都可以使用,但是歌唱方面只有英语版。英文音源在目前也很是少见,大概会得到某些人群的钟爱吧。

语音音源中唯一的英语声源在2021年12月这一时期只有「弦卷maki(マキ)」。在提到歌爱雪的部分就已经说了这个企业的名字,而弦巻マキ也是由这个叫做AHS的企业发行的音源(对于制作voiceroid实况视频的人而言确实是很受其照顾的公司)。弦卷maki英语的声音在下面视频的后半段可以听到。

然后最近令我震惊的是,次世代少女乐队企划「BanG Dream!」内的角色「戸山香澄」、「湊友希那」将在2022年内CeVIO AI 音源化被宣布了。她们各自是企划内的乐队「Poppin’Party」「Roselia」的vocal。尽管我过去一直想着将已经存在的游戏或者动画的角色就那样TTS化的时代在这一段时间内是不是就要到来了,但我没想到自己在玩的东西居然会一马当先被TTS化,受到惊吓反而有点畏缩。另外我推的「倉田ましろ」的CeVIO AI什么时候啊???

结尾

按照这样的感觉,以上是TTS和CeVIO AI 的介绍。

我边写边想到,有相当程度多的人就算认知到了CeVIO和VOCALOID是不一样的,也总会想要将CeVIO AI以「ボカロ」来称呼。我也会觉得心里有着正确的认知的同时,在称呼方面不要太那么严谨不也挺好。特别是对于圈子的情况不是很详细了解的人来说,「ボカロ」这一记号也确实很方便。

嘛实际上,朋友在听了可不的曲子后说着「这首是术力口P主的曲子真不错啊~!」的时候,「不对,因为KAMITSUBAKI STUDIO发行的「可不」是CeVIO Project发行的叫做CeVIO AI的TTS的音源的一种,所以不应该称呼为「术力口P主」而是「CeVIO AI P」的称呼才是正确的表现??」这样指出的话,真的会损失一位朋友的请不要那么做(这是我和你的约定喔

原文链接:https://note.com/kalte/n/ne2b0cf96d1bf文章已获得作者KALTE的授权。(本文保持持续更新)

翻译:nagi校对:Suzukaze Aoba