HOME | Raspberry Pi | ビジネス書籍紹介 | 2026-01-04 (Sun) Today's Access : 285 Total : 1260983. Since 10 Sep. 2019

音声変換 Seed-VC
2024.11.24

YouTube でも紹介しています。画像をクリックすると再生できます。

今回は、ゼロショットの音声変換および歌声変換ツールSeed-VC を Raspberry Pi 4 に実装してみました。

Seed-VC
Seed-VCは、トレーニングなしで30秒程の音声サンプルに基づいて音声変換を行うことができるツールです。 まずは音声変換の一連の流れをご覧ください。

●参照音声
【山路和弘】PSYCHO-PASS 雑賀譲二 イケボ&かっこいいシーン まとめ

声優の山路和弘さんを参照音声とします。


●変換元音声
単純に口が悪いインタビュアー

変換前の声にはこちらを利用しました。


なお音源の利用にあたっては著作権、肖像権等、自己責任にてお願いします。

●変換後音声
$ python3 inference.py \
--source source.wav \
--target reference.wav \
--output results \
--diffusion-steps 75 \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--f0-condition True \
--auto-f0-adjust False \
--semi-tone-shift 0

コマンドラインから変換する音声ファイル、参照音声ファイルを指定することで簡単に音声変換を行うことができます。


●Raspberry Pi への Seed-VCインストール
動作環境としてRaspberry Piを用いる場合、かなり制約があります

Raspberry Pi4 Model B 8GB

ARMv8(aarch64)アーキテクチャを持つ機種・64bit OS
例えば、torchaudioはSeed-VC内の使用されますが、 ARMv7アーキテクチャのRaspberry Pi 3用 Python3.10系torchaudioパッケージが存在しません。
ARMv8(aarch64)アーキテクチャを持つRaspberry Pi 4 or 5 に64ビット版OSをインストールする必要があります。

torchaudio
また、Python3.11系ではtorchaudio/mlファイルが抜け落ちていて実行時にエラーが発生してしまいます。

Python 3.10
BigVGANは、音声からmel情報を再構築をして再度音声に変換するライブラリです。 generative adversarial network (GAN) Python3.9以下では動作しません

bigvgan

これらの条件を満たすためには、Python3.10を使う必要があります。

Raspberry Pi OS (64-bit)

raspios_arm64-2023-05-03
raspios_arm64-2023-05-03 python3.9.2 (bullseye)
raspios_arm64-2023-10-10 python3.11.2 (bookworm)
python3.10をインストールしたいので、2023-05-03版ディストリビューションをインストールします。

$ cat /etc/os-release
PRETTY_NAME="Debian GNU/Linux 11 (bullseye)"
NAME="Debian GNU/Linux"
VERSION_ID="11"
VERSION="11 (bullseye)"
VERSION_CODENAME=bullseye
ID=debian

$ uname -a
Linux raspberrypi 6.1.21-v8+ #1642 SMP PREEMPT Mon Apr 3 17:24:16 BST 2023 aarch64 GNU/Linux

●Python3.10インストール

$ sudo apt update
$ sudo apt upgrade

$ sudo apt install \
build-essential libbz2-dev libdb-dev \
libffi-dev libgdbm-dev liblzma-dev \
libncursesw5-dev libreadline-dev libsqlite3-dev \
libssl-dev tk-dev uuid-dev \
zlib1g-dev

$ wget https://www.python.org/ftp/python/3.10.15/Python-3.10.15.tar.xz
$ tar xJf Python-3.10.15.tar.xz
$ cd Python-3.10.15
$ ./configure
$ make
$ sudo make install

$ which python
/usr/bin/python
$ ls -l /usr/bin/python
lrwxrwxrwx 1 root root 7 Mar 3 2021 /usr/bin/python -> python3
$ which python3
/usr/local/bin/python3
$ ls -l /usr/local/bin/python3
lrwxrwxrwx 1 root root 10 Nov 14 16:25 /usr/local/bin/python3 -> python3.10
$ sudo ln -sf /usr/local/bin/python3 /usr/bin/python
$ python --version
Python 3.10.15

$ pip --version
pip 20.3.4 from /usr/lib/python3/dist-packages/pip (python 3.9)
$ pip3 --version
pip 23.0.1 from /usr/local/lib/python3.10/site-packages/pip (python 3.10)
$ which pip
/usr/bin/pip
$ ls -l /usr/bin/pip
-rwxr-xr-x 1 root root 941 Jul 13 2022 /usr/bin/pip
$ ls -l /usr/local/bin/pip3
-rwxr-xr-x 1 root root 230 Nov 14 16:25 /usr/local/bin/pip3
$ sudo pip3 install --upgrade pip
pip 24.3.1 from /usr/local/lib/python3.10/site-packages/pip (python 3.10)


Seed-VC

$ cd ~/
$ git clone https://github.com/Plachtaa/seed-vc.git
$ cd seed-vc

$ sudo pip3 install -r requirements.txt
Downloading torch-2.5.1-cp310-cp310-manylinux2014_aarch64.whl (91.9 MB)
Downloading torchvision-0.20.1-cp310-cp310-manylinux2014_aarch64.whl (14.3 MB)
Downloading torchaudio-2.5.1-cp310-cp310-manylinux2014_aarch64.whl (1.7 MB)
Downloading scipy-1.13.1-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (33.7 MB)
Downloading https://www.piwheels.org/simple/librosa/librosa-0.10.2-py3-none-any.whl (260 kB)
Downloading https://www.piwheels.org/simple/huggingface-hub/huggingface_hub-0.26.2-py3-none-any.whl (447 kB)
Downloading https://www.piwheels.org/simple/munch/munch-4.0.0-py2.py3-none-any.whl (9.9 kB)
Downloading https://www.piwheels.org/simple/einops/einops-0.8.0-py3-none-any.whl (43 kB)
Downloading https://www.piwheels.org/simple/descript-audio-codec/descript_audio_codec-1.0.0-py3-none-any.whl (26 kB)
Downloading gradio-5.5.0-py3-none-any.whl (56.7 MB)
Downloading https://www.piwheels.org/simple/pydub/pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Downloading Resemblyzer-0.1.4-py3-none-any.whl (15.7 MB)
Downloading https://www.piwheels.org/simple/jiwer/jiwer-3.0.5-py3-none-any.whl (21 kB)
Downloading https://www.piwheels.org/simple/transformers/transformers-4.46.2-py3-none-any.whl (10.0 MB)
Downloading https://www.piwheels.org/simple/freesimplegui/FreeSimpleGUI-5.1.1-py3-none-any.whl (720 kB)
Downloading soundfile-0.12.1-py2.py3-none-any.whl.metadata (14 kB)
Downloading https://www.piwheels.org/simple/sounddevice/sounddevice-0.5.1-py3-none-any.whl (32 kB)
Downloading cffi-1.17.1-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl.metadata (1.5 kB)
Downloading https://www.piwheels.org/simple/pycparser/pycparser-2.22-py3-none-any.whl (117 kB)

$ python3 inference.py --source source.wav --target reference.wav --output results --diffusion-steps 75 --length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition True --auto-f0-adjust False --semi-tone-shift 0
参照音源と元音源にはステレオ441000Hz、16ビット音源を用いました。

各種パラメタ
--source <source-wav>
--target <referene-wav>
--output <output-dir>
--diffusion-steps 25 # 歌声変換の場合は 50~100
--length-adjust 1.0
--inference-cfg-rate 0.7
--f0-condition False # 歌声変換の場合 True
--auto-f0-adjust False # 参照音声のピッチに自動調整:True, 歌声:False
--semi-tone-shift 0 # 歌声変換の半音ピッチシフト
Downloading (…)an_pruned_ft_ema.pth:   0%|                                    | 0.00/821M [00:00<?, ?B/s
Downloading (…)an_pruned_ft_ema.pth:   1%|?                                   | 10.5M/821M [00:02<03:28, 3.89MB/s
...
Downloading (…)an_pruned_ft_ema.pth: 100%|?????????????????????????????????????| 821M/821M [05:17<00:00, 2.87MB/s
Downloading (…)an_pruned_ft_ema.pth: 100%|?????????????????????????????????????| 821M/821M [05:17<00:00, 2.59MB/s]
Downloading (…)sper_base_f0_44k.yml:   0%|                                            | 0.00/2.25k [00:00<?, ?B/s
Downloading (…)sper_base_f0_44k.yml: 100%|????????????????????????????????????| 2.25k/2.25k [00:00<00:00, 566kB/s]
(…)it_mel_seed_uvit_whisper_base_f0_44k.yml:   0%|                                         | 0.00/2.25k [00:00<?, ?B/s
(…)it_mel_seed_uvit_whisper_base_f0_44k.yml: 100%|????????????????????????????????| 2.25k/2.25k [00:00<00:00, 3.44MB/s]
Downloading rmvpe.pt: 100%|????????????????????????????????????????????????????| 181M/181M [01:16<00:00, 2.38MB/s]
Warning: Skipped loading some keys due to shape mismatch: {'estimator.input_pos'}
cfm loaded
length_regulator loaded
campplus_cn_common.bin: 100%|?????????????????????????????????????????????????????| 28.0M/28.0M [00:12<00:00, 2.32MB/s]
config.json: 100%|????????????????????????????????????????????????????????????????| 1.40k/1.40k [00:00<00:00, 3.59MB/s]
Loading weights from nvidia/bigvgan_v2_44khz_128band_512x
bigvgan_generator.pt: 100%|?????????????????????????????????????????????????????????| 489M/489M [03:43<00:00, 2.19MB/s]
Removing weight norm...
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
0it [00:00, ?it/s]
config.json: 100%|????????????????????????????????????????????????????????????????| 1.97k/1.97k [00:00<00:00, 4.46MB/s]
model.safetensors: 100%|????????????????????????????????????????????????????????????| 967M/967M [05:52<00:00, 2.75MB/s]
preprocessor_config.json: 100%|?????????????????????????????????????????????????????| 185k/185k [00:00<00:00, 1.46MB/s]
It is strongly recommended to pass the `sampling_rate` argument to this function. Failing to do so can result in silent errors that might be hard to debug.
It is strongly recommended to pass the `sampling_rate` argument to this function. Failing to do so can result in silent errors that might be hard to debug.
100%|????????????????????????????????????????| 75/75 [2:30:12<00:00, 120.17s/it]
RTF: 1481.183848076629
results というディレクトリの中にモノラル 44100Hz 32ビット音声変換ファイルが保存されます
vc_source_reference_1.0_75_0.7.wav
44.1KHz/32bitステレオの6秒ほどの音声の変換に2時間半ほど掛かりました。

参照音源と元音源をモノラル 22050Hz、16ビット音源にしても処理時間は変わらず出力ファイルはモノラル 44100Hz 32ビットでした。
$ python3 inference.py --source source_mono_22050.wav --target reference_mono_22050.wav --output results --diffusion-steps 75 --length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition True --auto-f0-adjust False --semi-tone-shift 0

microSDカードの空き容量を確認しておきます。
$ df
Filesystem     1K-blocks    Used Available Use% Mounted on
/dev/root       29441376 9282692  18903252  33% /
devtmpfs         3735680       0   3735680   0% /dev
tmpfs            3999904       0   3999904   0% /dev/shm
tmpfs            1599964    1192   1598772   1% /run
tmpfs               5120       4      5116   1% /run/lock
/dev/mmcblk0p1    261108   31380    229728  13% /boot
tmpfs             799980      24    799956   1% /run/user/1000
頻繁に作業領域の書き換えが行われていると思うので、SDカードの劣化に備えて、SDカードのコピーを作成しておきましょう。

●MINISFORUM UM690S

先日、AMD Ryzen 9 6900HX メモリ64GBのモデルを購入したので、こちらにUbuntuをインストールしてSeed-VCを動かしてみたいと思っています。

●参考文献
Seed-VCを自分のPCにインストールして声優の声を真似する
わずか10秒の元音声でもリアルな『Seed-VC』
Raspberry Pi(ラズベリー パイ)は、ARMプロセッサを搭載したシングルボードコンピュータ。イギリスのラズベリーパイ財団によって開発されている。
2020.01.05 第1回 abcjs 楽譜作成・演奏スクリプト
2020.01.09 I2S通信によるハイレゾ音源再生
2020.01.18 MIDI再生:FM音源YMF825+Arduino編
2020.01.24 FM音源YMF825+micro:bit編
2020.02.13 Piano Hat & Rosegarden
2020.03.18 テキスト読み上げ gTTS
2020.05.19 テキスト読み上げ AquesTalk pico LSI
2020.06.22 波形処理 第1回 音の波と三角関数
2020.07.22 波形処理 第2回 平均律と純正律
2020.08.26 波形処理 第3回 黒鍵と白鍵
2020.11.21 深層学習 第1回環境整備
2020.12.19 深層学習 第2回マルコフ連鎖・自動歌詞生成
2021.01.02 深層学習 第3回コード進行解析
2021.01.16 波形処理 第4回 コード演奏
2021.08.07 MIDI制御/Adafruit Music Maker
2021.08.23 MIDIフォーマット解析
2021.10.10 音声ファイルの切貼り
2022.09.16 USB-MIDI
2023.01.16 MAX98537 & PCM5102
2023.03.15 音源サンプリング
2023.06.16 ヤマハ音源IC YMZ294
2024.01.07 内蔵DACによるWAV再生
2024.03.23 Piano Hat for MIDI
2024.08.08 シンプルな16bit DAC
2024.09.09 ESP32-S3 USB MIDI
2024.11.10 音声変換・参照音声編集
2024.11.24 音声変換 Seed-VC
2024.12.11 音源IC SN76489
2025.01.10 ttymidi + SAM2695
2025.02.08 YMF825 + ESP32
2025.05.08 Small World 4MH711
YAMAHA YMU251-D
2025.05.23 Small World 4MH711
NJM2073
2025.06.08 Small World 4MH711
オリジナル・クロック
2025.06.23 Bluetooth Emitter
2025.11.20 NANO ESP32 統合環境
2025.11.24 MIDIキーボード→VS1053再生
2025.12.08 MP3 Player Shield

たいていのことは100日あれば、うまくいく。長田英知著
「時間がなくて、なかなか自分のやりたいことができない」 「一念発起して何かを始めても、いつも三日坊主で終わってしまう」 「色んなことを先延ばしにしたまま、時間だけが過ぎていく」 そこで本書では、そんな著者が独自に開発した、 まったく新しい目標達成メソッド「100日デザイン」について、 その知識と技術を、余すところなくご紹介します。

まんがで納得ナポレオン・ヒル 思考は現実化する
OLとして雑務をこなす日々に飽き足らず、科学者だった父が残した薬品を商品化すべく、起業を決意した内山麻由(27)。彼女はセミナーで知り合った謎の女性からサポートを得ながら、彼女と二人三脚でナポレオン・ヒルの成功哲学を実践し、さまざまな問題を乗り越えていく。 ヒル博士の<ゴールデンルール>に従い、仕事に、恋に全力疾走する彼女の、成功への物語。

今日は人生最悪で最高の日 1秒で世界を変えるたったひとつの方法 ひすいこたろう著
偉人の伝記を読むと、最悪な日は、不幸な日ではなく、新しい自分が始まる日であることがわかります。最悪な出来事は、自分の人生が、想像を超えて面白くなる兆しなのです。偉人伝を読むことで、このときの不幸があったおかげで、未来にこういう幸せがくるのかと、人生を俯瞰する視線が立ち上がるのです。

ご飯は私を裏切らない heisoku著
辛い現実から目を背けて食べるご飯は、いつも美味しく幸せを届けてくれる。 29歳、中卒、恋人いない歴イコール年齢。バイト以外の職歴もなく、短期バイトを転々とする日々。ぐるぐると思索に耽るけど、ご飯を食べると幸せになれる。奇才の新鋭・heisokuが贈るリアル労働グルメ物語!

【最新版Gemini 3に対応!】できるGemini (できるシリーズ)
Geminiを「最強の知的生産パートナー」として使いこなすための、実践的なノウハウを凝縮した一冊です。 基本的な操作方法から、具体的なビジネスシーンでの活用、日々の業務を自動化するGoogle Workspaceとの連携、さらには自分だけのオリジナルAIを作成する方法まで余すところなく解説します。

Rustプログラミング完全ガイド 他言語との比較で違いが分かる!
Rustの各手法や考え方を幅広く解説! 500以上のサンプルを掲載。実行結果も確認。 全24章の包括的なチュートリアル。

ポチらせる文章術
販売サイト・ネット広告・メルマガ・ブログ・ホームページ・SNS… 全WEB媒体で効果バツグン! カリスマコピーライターが教える「見てもらう」「買ってもらう」「共感してもらう」すべてに効くネット文章術

小型で便利な Type-C アダプター USB C オス - USB3.1 オスアダプター
Type-C端子のマイコンボードをこのアダプタを介して直接Raspberry Piに挿すことができます。ケーブルなしで便利なツールです。

Divoom Ditoo Pro ワイヤレススピーカー
15W高音質重低音/青軸キーボード/Bluetooth5.3/ピクセルアート 専用アプリ/USB接続/microSDカード

電源供給USBケーブル スリム 【5本セット】
USB電源ケーブル 5V DC電源供給ケーブル スリム 【5本セット】 電源供給 バッテリー 修理 自作 DIY 電子工作 (100cm)

Copyright © 2011-2027 Sarako Tsukiyono All rights reserved®.