国際会議IEEE ICASSPに投稿した論文が採録されました
株式会社TARVOで研究・開発したパラレル音声データを用いた音声変換技術が信号処理技術のトップカンファレンスである、2021 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP)に採録されました。本稿では、自己注意機構を備えたTransformerを拡張した非自己回帰系列変換モデルに基づく音声変換モデルを新たに提案しました。本提案モデルは、従来のRNNやTransformerを用いた自己回帰系列変換モデルを上回る変換精度・変換速度・変換制御性を実現しました。
本稿の概要は こちら をご覧ください。
変換サンプル音声は以下をご覧ください。
たとえば、プログラムを書く仕事は、機械なしでも、やろうと思えばできる。
Male->Female | Female->Male |
---|---|
Target | Target |
Tacotron2 | Tacotron2 |
Transformer | Transformer |
Proposed | Proposed |
そのうちに、日が暮れて、寒い風が、ヒューヒュー、吹きはじめました。
Male->Female | Female->Male |
---|---|
Target | Target |
Tacotron2 | Tacotron2 |
Transformer | Transformer |
Proposed | Proposed |
小柄な男は、部屋の中を、しげしげと、覗き込みながら言った。
Male->Female | Female->Male |
---|---|
Target | Target |
Tacotron2 | Tacotron2 |
Transformer | Transformer |
Proposed | Proposed |
また、本技術に関するお問い合わせは こちら からお受けいたします。
T. Hayashi, W. C. Huang, K. Kobayashi, T. Toda, “Non-autoregressive sequence-to-sequence voice conversion,” 2021 IEEE International Conference on Acoustics Speech and Signal Processing (Accepted).