2022/02/17
音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能
日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。
これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、
もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。
Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。
以下開発者インタビューあり
https://www.dtmstation.com/archives/55090.html MSedgeで音声読み上げすると英語はかなり綺麗に読んでくれる
インド人のタンタンした英語とか
日本人のおっさんのひどいカタカナ英語とかでもできる
体験してみようとおもったら体験版ソフトをダウンロードしないとダメなのか
これオーディオブックのコストカットに良さそう
読み上げる人を用意する人件費のせいでめちゃくちゃ高くなってるんだろあれ
なんかもうどんな技術も興味ないわ
この世の正体がわかるような量子力学とかだけ興味ある
はよこの世終わらしてくれ
ゆっくりやボイスロイドに関してはぎこちない感じがウケてる面もあるからなぁ
別に人間らしさを求めてるわけではないからなぁ
動画投稿者的にはそれを求めてるかもしれんが
ゆっくりはあの気の抜けた感じが動画をゆるくするのであって、別に人間がしゃべってる感じがほしいわけじゃないでしょ
なかなかやるやんと思ったら広告だったわ糞が
ま、本編もなかなかやってたがね
これでAIと組み合わせて完全なる配信者が誕生するのか
中の人とか要らないから
>>12
どっちも聞いたことないな Windowsに
搭載されてたのか?XPの時は機械音声を
一回試したような記憶があるような
無いような・・・・それかな? 鼻声かかってんな
それでも今までの寄りはかなりマシ
>>3
価格も数千円のものから〜の部分が結構機械っぽくなるけど
それ以外では、言われないとわからないレベルで綺麗だね
俺はゆっくりのあのトーンがすごい苦手だったからこっちが普及してくれると有り難い >>3
すごいな
電話対応がAIに置き換わるのも近そうだ クラウドワークスとかで募集して女に淡々と漫画読ませてるような動画はもう雇わなくていいレベルだな
Windowsに入ってるMicrosoft Haruka Desktopが一番しっくりくる
老害みたいなこと言うけどゆっくりとかボイスロイドの読み上げの方が味あって好きだな
パッケージもアニメ絵使ってないし本気で市場狙ってきてるな
ゆっくりよりできが良いのなんてすでにいくらでもあるからな
でもゆっくりが多用されてるんだから需要があるんだろう
>>47
商用可能だしこのクオリティならめっちゃ売れるだろ 文字認識も人間なみになったら
音声ブックも安くなりそう
可能ならデジタル書籍とセット売りしてもらいたい
男声の最初のやつが少しだけもやもやさまーずの声に聞こえた
自分の声サンプリングしてナレーションできるようになったら買うわ
Amazonはもうここ買収しろ
電子書籍の売上跳ね上がるぞ
>>65
声フォントってサイトで自分の声をai化出来る
精度は>>1とあんまり変わらない Adobe Senseiの音声が本物と見分けつかなくて危険だから引っ込めてたよな
まだ機械ってわかるな
ノイズを足せば完璧になりそう
感情の調整ができるのはすごい
適当な陰謀論作って自動音声教祖誕生させようぜ
>>65
既にやろうと思えばUTAUとかで出来るような? もう何年も前からmisakiという人間レベルの読み上げ音声があるんやが
ケンモスクリプトと合体させれば無限ラジオ配信出来そう
ゆっくりはもうああいうものだろ
流暢に喋られても落ち着かないわ
こういう頭の悪い声優が資料渡されて読んどるだけみたいなのは要らねえんだよ
本物の人間は言いたいところをもっと強く話す。こんなのはただの朗読だ
これ抑揚を手入力してるやろ
完全自動化してない、ゴミ
>>3
ほんとに僅かな違和感はあるけど、意識しなければ合成音声だとは分からんな chmateに読み上げつけてくれよ
けんもFMみたいに本文だけ読むやつ
>>82
おまえ雑談すらすべて演説調で会話してるのか…? 調教しないと変になるからそこらの動画なら
ゆっくりで十分というのは変わらんわ
ポッドキャストがそろそろブレイクしてもいい頃
通勤時や家事中にわりと合うと思ってるんだが、聴取側のデータ通信量も少ないし
動画作成配信よりハードル低いしさ
アクセントは自分で調教する必要があるのか?めんどくせえなその辺も全て自動でやれよ
男1はアンドロイドっぽい
けど、これはこれでありかもしれん
れいむの声が1番すき
次がようむ
魔理沙はあまり好きではない
まあ、そもそもSofTalkにゆっくり関係ないけど
もう後一歩って感じだな
3年ぐらいしたら人間と見分けつかなくなりそう
ソース、AHSのボイスピークかよ
CeVIO AIのTalkが凄いんだよ
人間が話しているみたいになるからな これと組み合わせてAIつかって自動的にオレオレ詐欺できるな
こういうのは商用で使うのダメじゃないの?
ゆっくりが使われてるのは著作権フリーだから
廃品回収の車が最近どこかの合成音声使ってるわ
イントネーションというか言葉の繋がりの微妙な違和感で気付いた
>>105
声優雇わずにフルボイスエロゲ作れるやん でもこれ抑揚を手動で設定しているからできることでしょ
AIが自分で抑揚を判断できないのなら進歩とは言えないのでは?
ゆっくりは普通の声じゃないから良いんだろ、人間を感じたらなんかムカつくんだよ、人の声聞いたら金儲けやがってって怒りが湧いてくるからゆっくりばかり見てるわ
聞き取れればいいんであってMicrosoft Ayumiで十分よな
>>17
商用利用不可とか意味わからんよな
何がしたいんだあいつら 読み上げはMISAKIのままだわ
超えるのなかなかでてこんのよね
やっとでてきた感じ
最近iPhoneの読み上げ機能が改悪の一方だから困ってる
なんとかして欲しいわマジで
ゆっくりはあの不自然さが魅力なんだからどれだけソフトが進化しても需要はなくならん
失業するのはむしろ声優だろ
オール合成音声の声優0アニメが生まれる日も近いわ
ニュースや天気予報なんかはもうこれでいいんだよね
少し前からラジオでやってたりするよな
>>3
女性声に比べて男性声が媚びすぎで不自然だな ついでに声優の声も全部ライブラリ化しとけば本人が引退したあとでも起用し放題だな
>>8
そもそも電子書籍に読み上げ機能がつけばいいんだから
オーディオブックなんて売れなくなるだろ
ていうか読み上げ機能はもう付いてるけど
クオリティの差で人間が読んでるオーディオブックが売れてるんだよ >>82
朗読もプロは全体の構成考えて読んでるよ
朗読は演劇に近い技術 棒読みは棒読みで需要あるだろ
尊師MMDとかあの無能ボイスだったから流行ったと思うし
>>129
「男性1」みたいな表記がおかしいだけで
男の声に「媚びすぎ」のような
感覚があるなら「媚びタイプ」という
カテゴリに加えれば良いだけだな NHKの衛星放送は休日の朝は読み上げソフトにニュース読ませてる
>>3
すげえなぁ
アナウンサーやアニメの端役とかこういうのに置き換えられちゃうんだろうか >>136
確かに
女性2や、特に女性3の完成度に比べると、アナウンサーというよりアニメ声優的で不自然に聞こえたが、
女向けアニメ用ならこっちだな 143番組の途中ですがアフィサイトへの転載は禁止です2022/02/17(木) 16:40:04.07
これだけ人間そっくりな声が簡単に合成できるようになったらディープフェイクと合成音声で作られたデマニュースがネットに溢れかえりそうだな
>>142
アナウンサーを年に何千万円も出して雇うことを考えたら激安。 エンジンだけ電子書籍リーダーで使えればいいんだけどなこれ
おれが最近ウェブ小説ばっか読んでるのってgoogleアシスタントで読み上げられるからだし
一度読む上げに慣れると目だけで読むのに戻れんわ
Windows版で7人の声が入って210MBってマジかよ
そんな小さくて済むのか
>>3
女性3と男性2はすげえな。ちびっ子もすげえ。この価格ならこの3声で元取れるわ >>3
これならクソみたいな動画も見られるわ女の子というのはやはり聞いてられないけど
アナウンサー調ならスムーズに話が入ってくる 聞いた感じ、まだ声優を廃業に追いやる所までは行ってないけど、ちょっとしたニュースとかならこういうので対応できるだろうな。
ゆっくりくらいが不気味の谷超えないくらいでちょうどいいんだよな
こんなのただの棒読みソフト+αやん
抑揚つけたエロ漫画の読み上げに対応したら買うわ
エロ官能ボイス機能無いならいらん
ニュースや小説を幼女にエッチな声で読み上げてほしいんじゃ、制作者は精進しろよ
>>155
ゆっくりも初見なら十分不気味なんだよなぁ… そんな私はvoicebox
でも調節無しでここまで自然だと有料で当然なんだろうな
>>35
「いわば私は総理大臣なのでありまして私が総理大臣である中に於いてその中に於いてですね(流暢)」 聞いて覚えるのが得意だったから若い頃にこういうのあったらなぁってちょっと今の子羨ましく思うわ
自分の名前呼ばせながらエロいこと喋らせてシコれるじゃん
すごいねえ
デジタルの人工音声が当たり前の時代になったら
声優みたいなアナログな職業いらなくなっちゃうね
出力した音声のピッチを上げたり下げたりしたらオナヌーが捗るのでは
>>69
まさにあいつの声もフォント化できるんですか!? >>115
おーかなりの部分は自動で調整してくれてんだな >>3
よくある科学系の動画で聞こえる声じゃん
アレ合成ソフトやったんか 良いと思うけど、YouTubeの何かの解説動画の音声がこれなら見るかと言われると微妙なんだよな
多分機械音声であることを示すためにある程度不自然じゃないとダメになるんじゃないかな
vtuberもさっさと死ねよ
これとチャットボット組み合わせて
今日は肉音声にしか聞こえない合成音声ソフト10選を紹介するのぜ
初音ミクからちゃんも進化させてけばすぐにこうなってたと思うんだけどな
なぜかボーカロイドっぽくないと嫌だって圧力に屈して進化させなかったから
単純労働働系は機械に取って変わられる日が近いとは言うが
ああいうのは人件費が機械より安いからなかなか進まないみたいなのよな
つまるところ人件費がそこそこ掛かるアナウンサーが一番先に失業する可能性?
コルセンなんかもうこれでいいだろ
テキスト発声させるほうがクレーマーがぐちぐちいってきても腹たたないしな
>>166
DTMとかドラムなんかもそう言われてたな
本物の声優レベルに調整するの大変だからやっぱり声優にやってもらった方が簡単でクオリティも高いとなるだろう >>179
ただのアナウンサーではなくタレント性まで含めての値段だろうからメインで出てくるような人は大丈夫でしょう
CGで演技させることをアメリカの映画俳優組合が頑強に反対してたがあれどうなったんだろう >>174
ゲームにも使えるみたいだな
なんだかんだ便利そうなツールに見える ボーカロイドの末路を見てみろよ。
早口の曲を未だに肉声に歌わせてるぜ?
肉はカネになるからな
ようやく普通の喋りが何とか良い感じになったレベルだな
感情の起伏は使う単語に寄ってイントネーションも変わるから
むしろ人間に声を出させてその起伏をサンプリングするような手法取れないかね
>>192
商用利用ありで16000円は安いね
仕事でも使うからとりあえず買っとくレベルだわ テキストを入力しただけで自然な声になるならホントにほしい
まあ自分でディープラーニングする手もあるんだけど
使いやすければ分散表現なんかと組合せて勝手にしゃべるAIなんかに革新が起きるかもな
喘ぎ声作る以外に用途ない
やっぱりこういうのは人間の声の方が温かみがある
>>3
まだ単語間の繋がりが悪いけど気にはならんレベルだなー モヤさまのショウ君みたいな前例もあるし仕事奪えるな
ゆっくりはゆっくりだから使われてるんじゃないか
リアルが良いなら普通に本人が喋ればいいだけだろ
ダウンロード&関連動画>>
これ、片方はゆっくりだけどもう一人、なんて読み上げソフトか分かる人いる?すごい優しい声でいいと思う
ゆっくりより自然な読み上げソフト沢山あるのにみんな商業利用しやすいゆっくり使ってんな >>207
本人の滑舌や声の質が悪かったら使えるだろ >>207
ゆっくりの声聞くと安心できるからな
機械音声、特にボイロみたいな媚媚のやつだと気持ち悪いんだよね >>213
バカ天才じゃねーか
日本来るな!もったいないぞ! >>215
ゆっくり音声いいよな
ゆっくり系の動画みるときは自然な発音とかが聞きたい訳じゃないし
個性を徹底的に排除して媚びのあるキモい喋り方を聞かなくていいってのがメリットだわ >>207
他人に不快感を抱かれない喋り方できる人ってどれくらいいると思う?
俺は半分もいないと思うんだけど >>211
紲星あかりってヤツじゃないの?
一本1万円するんだよなキャラ付くと >>211
ボイスロイドだな
どのボイスかまではわからんけど
ボイスピークと同じ会社が出してるソフトだよ >>222
>>225
おー、どうもありがとう
何気に最新なのか
他の人もありがとう
この人誰か調べる過程で読み上げソフト市場調べていくうちに
「ゆっくりはほぼキャラ色がないから自分の意見を代弁させやすい」って聞いた >>211
交互に聞くとやっぱりへっぽこキャラのへっぽこ音声の方が解説向きな感じするな
機械のエラー音はビープが向いてるみたいな イオンのアナウンスが読み上げソフトになって気持ち悪い
人間と同じなのが増えたら逆にゆっくりの株が上がるんじゃないか
>>232
それこそリアル楽器と電子音みたいに両極化するんじゃないの
電話応対用ならリアルな音声より電話回線ではっきりと聞き取りやすい声が欲しいとかあるだろうし 拓也さんの動画見てたらボイロにハマったんだけどおすすめの動画ある?
解説してくる球体はゆっくりボイスじゃないと落ち着かないわ
細かくはいじれないんだな
抜けるようなもんにはならない
女声に比べて男声の完成度が低いのは開発者の嗜好の偏りであろうか
ローカル局で午後にあった文字ニュースは
これでもいけそうだ
抜けるレベルのプリセット用意してないと、
俺らは相手してやんないよ?
最近は廃品回収車でも若い女の子のアナウンスで娘や孫に頼んでるのかな?と思ったら
CDだったり読み上げ依頼できる会社がやっぱりあるんだね
>>227
なのでネトウヨさん御用達で最近のゆっくりはイメージが悪いです。 >>3
思ったよりすごかった
でも俺はゆっくりの声がすき 運転中にiPhoneからSlackの読み上げが突然始まって
プログラムコードを延々読み上げたのはマジで困った
「こ、こ、こ、こ、この、バカ犬〜〜〜〜!!」
って淡々と喋るだけなんだろうな
スライダーで声色とか調子とか喜怒哀楽とか調整出来たら面白いな
>>3
女の声はすごくいいんだけど男のは何か気持ち悪く感じるのは俺が男だからなんかな? 声優と声優系YouTuberがまず失職して
その後、言語を組み合わせてるだけの脚本系の仕事も職を奪われそうだな
>>254
すげーな
エロい言葉喋らせても良いんかね
サーバーに送られてて恥ずかしい事になるかな こういうので低い男性ボイスをあまり見かけないのは需要がないから?技術的に難しいから?
>>254
これすごいな
こんなんあったのは知らなかったわ >>258
紅の豚の人とか、桐生さんみたいなボイスあったら個性的で面白いね
確かに難しいのかもしれん いやーまだまだでしょ?って言いに来たらすごいなこれ
商業利用で金とられるのは痛いって気持ちは分かるけど、
ゆっくりってだけで忌避する人も確実にいるんだから
それなりに良質な読み上げソフト使って再生数稼いでライセンス料払えばいいのに
>>219
それ喋りとは違う要素な気がするけどな
社会生活送れないでしょ >>213
Synthesizer V作ったのって中国人だったのか
リアル路線の合成音声ソフトの中では頭一つ抜けてるんだよねこれ >>271
一人でしゃべってるの聴くのってそれだけで案外苦痛じゃん
大声で電話してるのとか不快やろ 変な予想と違う声で嫌な思いよりもゆっくりのほうが良い
秋山優花里は好き嫌いはっきり別れてしまうように
どうしてもカエルに聞こえてしまう
>>265
>Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。
>商用で使うには別ライセンスが必要というビジネススキームになっていましたが、この「VOICEPEAK 商用可能 6ナレーターセット」はそうした制限を撤廃しているのです
商用ライセンス込みならそこまで高くもないしな 凄いねこれ亡くなった声優の声サンプリングしてソフトとして復活できるんじゃ
>>274
確かに電車とかで電話してる人いると不快に感じるけど
会議だったり何かしらの発表だったりで喋ってるのは別に不快に感じないからなぁ
何が違うのかは俺もイマイチわからんが 会計ソフトみたいな強気な価格が気に食わない
会社や事業者が経費で落とす価格
あかりとかきりたんより良いの?
僕もチューバーやろうかなw
わかってないなぁ
あの合成音声だから味かあるんだろうに
無料で簡単だからそんな簡単には居場所無くならんだろ
>>3
すごいんだけど、なんかどれもアニメ声って感じがする >>230
すげー、杉田智和と大塚明夫を足して2で割ったみたいだ あれ、男声の方は読み上げソフトじゃないんかな…
でも女2人も全然ゆっくりの不快感ないな
スーパーとかの安売り店内アナウンスとかこれでやったら楽だろうな
日本にしては珍しい良い進化じゃないか?
あと字幕つけて読み上げソフトに読ませてるのに
漢字の読み間違えしてて、それくらい手動で直して差し替えろよ、と思うことも多い
>>3
これ下の波形
これ手動で設定せんといかんの? つんくとか声が出せない人がこれ使えばいいよ
アンドロイド移植してやんなよ
>>265
ゆっくりだから見る層もおる
おれはきりたんボイスとか好きじゃねーし >>297
自動で出る
それが割とまともで
気に入らなければいじることもできる どこかで聞いたことある声だな
キズナアカリとタカハシ?
>>3
イントネーション完璧だしぶっちゃけ新人声優より上手い
ただ言葉同士の音の繋がりがぶつ切れでやっぱり違和感あるな >>300
まじか
文字読み込ませるだけでこのクオリティなら恐ろしいな
へんな文章読ませるためだけに買ってまいそうや >>3
声優がいらん時代来るなこれ
野沢雅子の声死ぬ前に採取しておけ ゆっくりってだけで見る対象にならないから動画作ってるやつはこれ使え
でも子供はゆっくりじゃないと怒るんだろ
使うの嫌だけど仕方ないわ
>>305
AIだからアップデートするたびに精度もよくなるから手間をかけていじる必要もないよ 体験版だと女性1か男性1しか選べないけど
女性1の声色がエイシンフラッシュ似だったので
ウマ娘のいろんなセリフを喋らせて遊んでるわ
エロゲのテキスト読ませて声も聞かせて学習とかできないのかね
イオンとかの館内放送とっくに合成音声やで。定型文以外も。
何故かカンボジアの発音がおかしいけど
>>3
声優声って感じだな
豚には人間の声に聞こえる >>314
できるぞ
事前に「人間の日本語音声を網羅的に真似するAIモデル」を用意して
そこにエロゲのテキストとボイスのペアを追加で入れてその人に近付けるなんてことを個人開発者レベルではよくやられてる
大っぴらに言うと色々面倒だから出てこないだけで
ただ声質悪いし現時点ではお遊びレベル CoefontやVoicevoxもすごいよなぁ
最初ミリアル聞いた時しょんべんチビったもん
逆にパッケージ売りしてるVOICEROIDとか進歩がなくて大丈夫か?と心配になる
極端に言えばマトモに喋れない引きこもりコミュ障でもイケボ声優と同じスタートラインに立てるんだからな、いや時代変わるよ、実際。
引きこもりコミュ障の見解や考察が視聴に値するかはともかく…
皆が自分の好きな音声で会話する未来もあるんでしょうね。
>>318
まじかよ!
すまん、俺がそれ商業レベルまで引き上げるわ >>320
Coefontは変な吐息の癖があるから駄目だわ
VOICEVOXは春日部つむぎちゃんが可愛い >>92
それiPhoneの登場前、iPodの頃から存在してる様式だけどな… >>332
ダミヘのASMR普及してるから難しいと思う かなり自然だけどなんかキモい
これ声も不気味の谷みたいなのない?
元々エンタープライズ向けの業務ソフトはすごいのあったけど、個人で使えるレベルの価格になったのがすごい
機械学習のパワーは無限大だな
藤本健さんの名前を10年ぶりくらいにみたわ。もっと長いか。
昔mp3エンコーダのスレの住人だった頃はよくみたけど
今もこういう記事のライターなんだな。
そのうち読み上げソフトが声優なみにキャラを演じることができるようになるんだろうな
まさか声の仕事がこんなすぐに機械にとって代わられるとは思わんかった
最近寝れないときはゆっくり聴きながら寝てる
あの声がいいんよ
>>123
声優といっても、アニメを声優がやるのは変わらんと思うな
何故ならアニメというのは声優目当てで見ている層も一定数存在するから
一番顕著なのだとアイドルアニメとかね
やらかすリスクはあるにしても、声優とかいう大してギャラもかからん奴をケチってその層を切り捨てる判断は無い
これといって役者にこだわりがない同人作品やエロゲ、ナレーション、吹き替えあたりはやばいかもなあ >>351
アナウンサーがいなくなっても替わりに文字打って自然な読みかチェックして読み間違いは訂正して云々
人が完全に不要になるわけじゃないけどな
あとアニメ声優の仕事はまだまだずっと先だろ
ナレーターならある程度はこなせるかも