少し前にAIの話を書いたのだが、さらに面白い記事や内容を確認したのでまとめたいと思いました。
RVC(Retrieval-based Voice Changer)について
リアルタイムボイスチェンジャーの技術自体は昔からある
カラオケのボイスチェンジが良い例だが、
男性→女性、などの場合は簡単に言うと低音域を切り、高音域にオクターブを上げる処理を行う
普段喋ってる声が高くなるので、それっぽい感じには絶対ならない
その後、学習モデルや、音域のどこをきる、どこを上げるなどフィルター技術により
個々人の努力も相まって、ボイスチェンジャー技術は強くなっていくが、
ある種「職人」のようなもので、誰にでも使えるものではなかった
昨今出てきた、RVCはそれを明らかに超えるものである
AIによって、学習データを作成し、その音域に近い音域を見つけ、音階を合わせるという作業を行う。
学習データが多ければ様々な声の動きにも対応する
さらにこのRVCの驚く点は、どのような音域と声でも、
ある一定の幅に納めるようにボイスを変更し、その音質で返してくれる
まだ、本当に遅延が少なくリアルタイムで音質をよくするには、
ハイエンドPCが必要ではあるものの、その障壁・万人への合わせ具合は異常である
もう、声質や雰囲気すらバーチャルに出来るのである
あと10年後には自然に動くバーチャル3Dが、違和感ない音声でしゃべっても、中身は全く違う。
という可能性があり、それらを見抜くことも難しくなると思った