|
1 | 1 | <div align="center"> |
2 | 2 |
|
3 | 3 | <h1>Retrieval-based-Voice-Conversion-WebUI</h1> |
4 | | -使いやすいVITSベースの音声変換(ボイスチェンジャー)フレームワーク<br><br> |
| 4 | +VITSに基づく使いやすい音声変換(voice changer)framework<br><br> |
5 | 5 |
|
6 | 6 | [](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI) |
7 | 7 |
|
|
15 | 15 |
|
16 | 16 | ------ |
17 | 17 |
|
18 | | -[**ChangeLog**](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI/blob/main/Changelog_CN.md) |
| 18 | +[**更新日誌**](https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI/blob/main/Changelog_CN.md) |
19 | 19 |
|
20 | 20 | [**English**](./README.en.md) | [**中文简体**](./README.md) | [**日本語**](./README.ja.md) |
21 | 21 |
|
22 | | -> [デモ映像](https://www.bilibili.com/video/BV1pm4y1z7Gm/)はこちらからご覧いただけます |
| 22 | +> demo動画は[こちら](https://www.bilibili.com/video/BV1pm4y1z7Gm/)でご覧してくでさい |
23 | 23 |
|
24 | | -> RVCによるリアルタイム音声変換: [w-okada/voice-changer](https://github.com/w-okada/voice-changer) |
| 24 | +> RVCによる実時間音声変換: [w-okada/voice-changer](https://github.com/w-okada/voice-changer) |
| 25 | +
|
| 26 | +> 基底modelを訓練(training)したのは、約50時間の高品質開源(open source)資料集(dataset)VCTK。著作権侵害を心配することなく使用できるように。 |
| 27 | +
|
| 28 | +> 今後は次々と使用許可のある高品質歌声資料集を追加し、基底modelを訓練する。 |
25 | 29 |
|
26 | 30 | ## はじめに |
27 | | -本リポジトリには以下の特徴がある: |
28 | | -+ top1検索を利用して、ソース特徴量をトレーニングセット特徴量に置き換えることで、トーンリークを低減する; |
29 | | -+ 比較的貧弱なグラフィックカードでも、簡単かつ高速にトレーニングできる; |
30 | | -+ 少量のデータで比較的良好な結果が得られる(10分以上の低ノイズ音声を推奨); |
31 | | -+ 音色を変えるためのモデルマージをサポート(ckpt processingタブ->ckpt mergeを使用); |
32 | | -+ 使いやすいWebuiインターフェース; |
33 | | -+ ボーカルと楽器を素早く分割するために、UVR5モデルを使用することができます。 |
34 | | -+ 事前学習モデルのデータセットには、約50時間に及ぶ高品質なVCTKオープンソースデータセットが使用されており、著作権侵害を心配することなく使用できるよう、高品質なライセンス楽曲データセットが次々とトレーニングセットに追加されます。 |
| 31 | +本repoは下記の特性があります |
| 32 | + |
| 33 | ++ 調子(tone)の漏洩が下がれるためtop1検索で源特徴量を訓練集特徴量に置換 |
| 34 | ++ 古い又は安いGPUにでも高速に訓練できる |
| 35 | ++ 小さい訓練集でもかなりいいmodelを得られる(10分以上の低noise音声を推奨) |
| 36 | ++ modelを融合し音色をmergeできる(ckpt processing->ckpt mergeで使用) |
| 37 | ++ 使いやすいWebUI |
| 38 | ++ UVR5 Modelも含めるため人声とBGMを素早く分離できる |
| 39 | + |
35 | 40 | ## 環境構築 |
36 | | -poetryで依存関係をインストールすることをお勧めします。 |
| 41 | +poetryで依存関係をinstallすることをお勧めします。 |
37 | 42 |
|
38 | | -以下のコマンドは、Python3.8以上の環境下で実行する必要があります: |
| 43 | +下記のcommandsは、Python3.8以上の環境で実行する必要があります: |
39 | 44 | ```bash |
40 | | -# PyTorch関連の依存関係をインストール。インストール済の場合はスキップ |
| 45 | +# PyTorch関連の依存関係をinstall。install済の場合はskip |
41 | 46 | # 参照先: https://pytorch.org/get-started/locally/ |
42 | 47 | pip install torch torchvision torchaudio |
43 | 48 |
|
44 | | -#Windows+ Nvidia Ampere Architecture(RTX30xx)の場合、https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI/issues/21 のissueに従い、pytorchに対応するcudaバージョンを指定する必要があります。 |
| 49 | +#Windows+ Nvidia Ampere Architecture(RTX30xx)の場合、 #21 に従い、pytorchに対応するcuda versionを指定する必要があります。 |
| 50 | +#pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 |
45 | 51 |
|
46 | | -pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117 |
47 | | - |
48 | | -# PyTorch関連の依存関係をインストール。インストール済の場合はスキップ |
| 52 | +# PyTorch関連の依存関係をinstall。install済の場合はskip |
49 | 53 | # 参照先: https://python-poetry.org/docs/#installation |
50 | 54 | curl -sSL https://install.python-poetry.org | python3 - |
51 | 55 |
|
52 | | -# Poetry経由で依存関係をインストール |
| 56 | +# Poetry経由で依存関係をinstall |
53 | 57 | poetry install |
54 | 58 | ``` |
55 | 59 |
|
56 | | -pipでも依存関係のインストールが可能です: |
| 60 | +pipでも依存関係のinstallが可能です: |
57 | 61 |
|
58 | | -**注意**:`faiss 1.7.2`は`macOS`で`Segmentation Fault: 11`が発生するので、`requirements.txt`の該当行を `faiss-cpu==1.7.0`に変更してください。 |
| 62 | +**注意**:`faiss 1.7.2`は`macOS`で`Segmentation Fault: 11`を起こすので、`requirements.txt`の該当行を `faiss-cpu==1.7.0`に変更してください。 |
59 | 63 |
|
60 | 64 | ```bash |
61 | 65 | pip install -r requirements.txt |
62 | 66 | ``` |
63 | 67 |
|
64 | | -## その他モデル前の準備 |
65 | | -RVCは推論と訓練のために、他の多くのPre Trained Modelを必要とします。 |
| 68 | +## 基底modelsを準備 |
| 69 | +RVCは推理・訓練のために色んな事前訓練した基底modelsが必要。 |
66 | 70 |
|
67 | | -これらのモデルは[Hugging Face space](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/)から取得することが可能です。 |
| 71 | +modelsは[Hugging Face space](https://huggingface.co/lj1995/VoiceConversionWebUI/tree/main/)からdownloadできる。 |
68 | 72 |
|
69 | | -以下は、RVCに必要なPre Trained Modelやその他のファイルの一覧です。 |
| 73 | +以下は、RVCに必要な基底modelsやその他のfilesの一覧です。 |
70 | 74 | ```bash |
71 | 75 | hubert_base.pt |
72 | 76 |
|
73 | 77 | ./pretrained |
74 | 78 |
|
75 | 79 | ./uvr5_weights |
76 | 80 |
|
77 | | -# ffmpegがすでにインストールされている場合はスキップ。 |
| 81 | +# ffmpegがすでにinstallされている場合はskip |
78 | 82 | ./ffmpeg |
79 | 83 | ``` |
80 | | -その後、以下のコマンドでWebuiを起動 |
| 84 | +その後、下記のcommandでWebUIを起動 |
81 | 85 | ```bash |
82 | 86 | python infer-web.py |
83 | 87 | ``` |
84 | | -Windowsをお使いの方は、直接`RVC-beta.7z`をダウンロードして解凍してRVCを使い、`go-web.bat`を実行してWebUIを起動することができます。 |
85 | | - |
86 | | -WebUIの英語版は2週間ほどで公開する予定です。 |
| 88 | +Windowsをお使いの方は、直接に`RVC-beta.7z`をdownload・解凍して、`go-web.bat`をclickでWebUIを起動できる。 |
87 | 89 |
|
88 | | -また、リポジトリに[小白简易教程.doc](./小白简易教程.doc)がありますので、参考にしてください。 |
| 90 | +また、repoに[小白简易教程.doc](./小白简易教程.doc)がありますので、参考にしてください(中国語版のみ)。 |
89 | 91 |
|
90 | | -## 参考資料等 |
| 92 | +## 参考したprojects |
91 | 93 | + [ContentVec](https://github.com/auspicious3000/contentvec/) |
92 | 94 | + [VITS](https://github.com/jaywalnut310/vits) |
93 | 95 | + [HIFIGAN](https://github.com/jik876/hifi-gan) |
94 | 96 | + [Gradio](https://github.com/gradio-app/gradio) |
95 | 97 | + [FFmpeg](https://github.com/FFmpeg/FFmpeg) |
96 | 98 | + [Ultimate Vocal Remover](https://github.com/Anjok07/ultimatevocalremovergui) |
97 | 99 | + [audio-slicer](https://github.com/openvpi/audio-slicer) |
98 | | -## コントリビュータの皆様の尽力に感謝します |
| 100 | + |
| 101 | +## 貢献者(contributer)皆様のご協力を感謝して致します |
99 | 102 | <a href="https://github.com/liujing04/Retrieval-based-Voice-Conversion-WebUI/graphs/contributors" target="_blank"> |
100 | 103 | <img src="https://contrib.rocks/image?repo=liujing04/Retrieval-based-Voice-Conversion-WebUI" /> |
101 | 104 | </a> |
102 | | - |
|
0 commit comments