HOME | Raspberry Pi | ビジネス書籍紹介 | 2024-11-25 (Mon) Today's Access : 431 Total : 1099389. Since 10 Sep. 2019

音声変換 Seed-VC
2024.11.24

YouTube でも紹介しています。画像をクリックすると再生できます。

今回は、ゼロショットの音声変換および歌声変換ツールSeed-VC を Raspberry Pi 4 に実装してみました。

Seed-VC
Seed-VCは、トレーニングなしで30秒程の音声サンプルに基づいて音声変換を行うことができるツールです。 まずは音声変換の一連の流れをご覧ください。

●参照音声
【山路和弘】PSYCHO-PASS 雑賀譲二 イケボ&かっこいいシーン まとめ

声優の山路和弘さんを参照音声とします。


●変換元音声
単純に口が悪いインタビュアー

変換前の声にはこちらを利用しました。


なお音源の利用にあたっては著作権、肖像権等、自己責任にてお願いします。

●変換後音声
$ python3 inference.py \
--source source.wav \
--target reference.wav \
--output results \
--diffusion-steps 75 \
--length-adjust 1.0 \
--inference-cfg-rate 0.7 \
--f0-condition True \
--auto-f0-adjust False \
--semi-tone-shift 0

コマンドラインから変換する音声ファイル、参照音声ファイルを指定することで簡単に音声変換を行うことができます。


●Raspberry Pi への Seed-VCインストール
動作環境としてRaspberry Piを用いる場合、かなり制約があります

Raspberry Pi4 Model B 8GB

ARMv8(aarch64)アーキテクチャを持つ機種・64bit OS
例えば、torchaudioはSeed-VC内の使用されますが、 ARMv7アーキテクチャのRaspberry Pi 3用 Python3.10系torchaudioパッケージが存在しません。
ARMv8(aarch64)アーキテクチャを持つRaspberry Pi 4 or 5 に64ビット版OSをインストールする必要があります。

torchaudio
また、Python3.11系ではtorchaudio/mlファイルが抜け落ちていて実行時にエラーが発生してしまいます。

Python 3.10
BigVGANは、音声からmel情報を再構築をして再度音声に変換するライブラリです。 generative adversarial network (GAN) Python3.9以下では動作しません

bigvgan

これらの条件を満たすためには、Python3.10を使う必要があります。

Raspberry Pi OS (64-bit)

raspios_arm64-2023-05-03
raspios_arm64-2023-05-03 python3.9.2 (bullseye)
raspios_arm64-2023-10-10 python3.11.2 (bookworm)
python3.10をインストールしたいので、2023-05-03版ディストリビューションをインストールします。

$ cat /etc/os-release
PRETTY_NAME="Debian GNU/Linux 11 (bullseye)"
NAME="Debian GNU/Linux"
VERSION_ID="11"
VERSION="11 (bullseye)"
VERSION_CODENAME=bullseye
ID=debian

$ uname -a
Linux raspberrypi 6.1.21-v8+ #1642 SMP PREEMPT Mon Apr 3 17:24:16 BST 2023 aarch64 GNU/Linux

●Python3.10インストール

$ sudo apt update
$ sudo apt upgrade

$ sudo apt install \
build-essential libbz2-dev libdb-dev \
libffi-dev libgdbm-dev liblzma-dev \
libncursesw5-dev libreadline-dev libsqlite3-dev \
libssl-dev tk-dev uuid-dev \
zlib1g-dev

$ wget https://www.python.org/ftp/python/3.10.15/Python-3.10.15.tar.xz
$ tar xJf Python-3.10.15.tar.xz
$ cd Python-3.10.15
$ ./configure
$ make
$ sudo make install

$ which python
/usr/bin/python
$ ls -l /usr/bin/python
lrwxrwxrwx 1 root root 7 Mar 3 2021 /usr/bin/python -> python3
$ which python3
/usr/local/bin/python3
$ ls -l /usr/local/bin/python3
lrwxrwxrwx 1 root root 10 Nov 14 16:25 /usr/local/bin/python3 -> python3.10
$ sudo ln -sf /usr/local/bin/python3 /usr/bin/python
$ python --version
Python 3.10.15

$ pip --version
pip 20.3.4 from /usr/lib/python3/dist-packages/pip (python 3.9)
$ pip3 --version
pip 23.0.1 from /usr/local/lib/python3.10/site-packages/pip (python 3.10)
$ which pip
/usr/bin/pip
$ ls -l /usr/bin/pip
-rwxr-xr-x 1 root root 941 Jul 13 2022 /usr/bin/pip
$ ls -l /usr/local/bin/pip3
-rwxr-xr-x 1 root root 230 Nov 14 16:25 /usr/local/bin/pip3
$ sudo pip3 install --upgrade pip
pip 24.3.1 from /usr/local/lib/python3.10/site-packages/pip (python 3.10)


Seed-VC

$ cd ~/
$ git clone https://github.com/Plachtaa/seed-vc.git
$ cd seed-vc

$ sudo pip3 install -r requirements.txt
Downloading torch-2.5.1-cp310-cp310-manylinux2014_aarch64.whl (91.9 MB)
Downloading torchvision-0.20.1-cp310-cp310-manylinux2014_aarch64.whl (14.3 MB)
Downloading torchaudio-2.5.1-cp310-cp310-manylinux2014_aarch64.whl (1.7 MB)
Downloading scipy-1.13.1-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl (33.7 MB)
Downloading https://www.piwheels.org/simple/librosa/librosa-0.10.2-py3-none-any.whl (260 kB)
Downloading https://www.piwheels.org/simple/huggingface-hub/huggingface_hub-0.26.2-py3-none-any.whl (447 kB)
Downloading https://www.piwheels.org/simple/munch/munch-4.0.0-py2.py3-none-any.whl (9.9 kB)
Downloading https://www.piwheels.org/simple/einops/einops-0.8.0-py3-none-any.whl (43 kB)
Downloading https://www.piwheels.org/simple/descript-audio-codec/descript_audio_codec-1.0.0-py3-none-any.whl (26 kB)
Downloading gradio-5.5.0-py3-none-any.whl (56.7 MB)
Downloading https://www.piwheels.org/simple/pydub/pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Downloading Resemblyzer-0.1.4-py3-none-any.whl (15.7 MB)
Downloading https://www.piwheels.org/simple/jiwer/jiwer-3.0.5-py3-none-any.whl (21 kB)
Downloading https://www.piwheels.org/simple/transformers/transformers-4.46.2-py3-none-any.whl (10.0 MB)
Downloading https://www.piwheels.org/simple/freesimplegui/FreeSimpleGUI-5.1.1-py3-none-any.whl (720 kB)
Downloading soundfile-0.12.1-py2.py3-none-any.whl.metadata (14 kB)
Downloading https://www.piwheels.org/simple/sounddevice/sounddevice-0.5.1-py3-none-any.whl (32 kB)
Downloading cffi-1.17.1-cp310-cp310-manylinux_2_17_aarch64.manylinux2014_aarch64.whl.metadata (1.5 kB)
Downloading https://www.piwheels.org/simple/pycparser/pycparser-2.22-py3-none-any.whl (117 kB)

$ python3 inference.py --source source.wav --target reference.wav --output results --diffusion-steps 75 --length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition True --auto-f0-adjust False --semi-tone-shift 0
参照音源と元音源にはステレオ441000Hz、16ビット音源を用いました。

各種パラメタ
--source <source-wav>
--target <referene-wav>
--output <output-dir>
--diffusion-steps 25 # 歌声変換の場合は 50~100
--length-adjust 1.0
--inference-cfg-rate 0.7
--f0-condition False # 歌声変換の場合 True
--auto-f0-adjust False # 参照音声のピッチに自動調整:True, 歌声:False
--semi-tone-shift 0 # 歌声変換の半音ピッチシフト
Downloading (…)an_pruned_ft_ema.pth:   0%|                                    | 0.00/821M [00:00<?, ?B/s
Downloading (…)an_pruned_ft_ema.pth:   1%|?                                   | 10.5M/821M [00:02<03:28, 3.89MB/s
...
Downloading (…)an_pruned_ft_ema.pth: 100%|?????????????????????????????????????| 821M/821M [05:17<00:00, 2.87MB/s
Downloading (…)an_pruned_ft_ema.pth: 100%|?????????????????????????????????????| 821M/821M [05:17<00:00, 2.59MB/s]
Downloading (…)sper_base_f0_44k.yml:   0%|                                            | 0.00/2.25k [00:00<?, ?B/s
Downloading (…)sper_base_f0_44k.yml: 100%|????????????????????????????????????| 2.25k/2.25k [00:00<00:00, 566kB/s]
(…)it_mel_seed_uvit_whisper_base_f0_44k.yml:   0%|                                         | 0.00/2.25k [00:00<?, ?B/s
(…)it_mel_seed_uvit_whisper_base_f0_44k.yml: 100%|????????????????????????????????| 2.25k/2.25k [00:00<00:00, 3.44MB/s]
Downloading rmvpe.pt: 100%|????????????????????????????????????????????????????| 181M/181M [01:16<00:00, 2.38MB/s]
Warning: Skipped loading some keys due to shape mismatch: {'estimator.input_pos'}
cfm loaded
length_regulator loaded
campplus_cn_common.bin: 100%|?????????????????????????????????????????????????????| 28.0M/28.0M [00:12<00:00, 2.32MB/s]
config.json: 100%|????????????????????????????????????????????????????????????????| 1.40k/1.40k [00:00<00:00, 3.59MB/s]
Loading weights from nvidia/bigvgan_v2_44khz_128band_512x
bigvgan_generator.pt: 100%|?????????????????????????????????????????????????????????| 489M/489M [03:43<00:00, 2.19MB/s]
Removing weight norm...
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
0it [00:00, ?it/s]
config.json: 100%|????????????????????????????????????????????????????????????????| 1.97k/1.97k [00:00<00:00, 4.46MB/s]
model.safetensors: 100%|????????????????????????????????????????????????????????????| 967M/967M [05:52<00:00, 2.75MB/s]
preprocessor_config.json: 100%|?????????????????????????????????????????????????????| 185k/185k [00:00<00:00, 1.46MB/s]
It is strongly recommended to pass the `sampling_rate` argument to this function. Failing to do so can result in silent errors that might be hard to debug.
It is strongly recommended to pass the `sampling_rate` argument to this function. Failing to do so can result in silent errors that might be hard to debug.
100%|????????????????????????????????????????| 75/75 [2:30:12<00:00, 120.17s/it]
RTF: 1481.183848076629
results というディレクトリの中にモノラル 44100Hz 32ビット音声変換ファイルが保存されます
vc_source_reference_1.0_75_0.7.wav
44.1KHz/32bitステレオの6秒ほどの音声の変換に2時間半ほど掛かりました。

参照音源と元音源をモノラル 22050Hz、16ビット音源にしても処理時間は変わらず出力ファイルはモノラル 44100Hz 32ビットでした。
$ python3 inference.py --source source_mono_22050.wav --target reference_mono_22050.wav --output results --diffusion-steps 75 --length-adjust 1.0 --inference-cfg-rate 0.7 --f0-condition True --auto-f0-adjust False --semi-tone-shift 0

microSDカードの空き容量を確認しておきます。
$ df
Filesystem     1K-blocks    Used Available Use% Mounted on
/dev/root       29441376 9282692  18903252  33% /
devtmpfs         3735680       0   3735680   0% /dev
tmpfs            3999904       0   3999904   0% /dev/shm
tmpfs            1599964    1192   1598772   1% /run
tmpfs               5120       4      5116   1% /run/lock
/dev/mmcblk0p1    261108   31380    229728  13% /boot
tmpfs             799980      24    799956   1% /run/user/1000
頻繁に作業領域の書き換えが行われていると思うので、SDカードの劣化に備えて、SDカードのコピーを作成しておきましょう。

●MINISFORUM UM690S

先日、AMD Ryzen 9 6900HX メモリ64GBのモデルを購入したので、こちらにUbuntuをインストールしてSeed-VCを動かしてみたいと思っています。

●参考文献
Seed-VCを自分のPCにインストールして声優の声を真似する
わずか10秒の元音声でもリアルな『Seed-VC』
 Raspberry Pi(ラズベリー パイ)は、ARMプロセッサを搭載したシングルボードコンピュータ。イギリスのラズベリーパイ財団によって開発されている。
2020.01.05 第1回 abcjs 楽譜作成・演奏スクリプト
2020.01.09 I2S通信によるハイレゾ音源再生
2020.01.18 MIDI再生:FM音源YMF825+Arduino編
2020.01.24 FM音源YMF825+micro:bit編
2020.02.13 Piano Hat & Rosegarden
2020.03.18 テキスト読み上げ gTTS
2020.05.19 テキスト読み上げ AquesTalk pico LSI
2020.06.22 波形処理 第1回 音の波と三角関数
2020.07.22 波形処理 第2回 平均律と純正律
2020.08.26 波形処理 第3回 黒鍵と白鍵
2020.11.21 深層学習 第1回環境整備
2020.12.19 深層学習 第2回マルコフ連鎖・自動歌詞生成
2021.01.02 深層学習 第3回コード進行解析
2021.01.16 波形処理 第4回 コード演奏
2021.08.07 MIDI制御/Adafruit Music Maker
2021.08.23 MIDIフォーマット解析
2021.08.24 オーディオアンプ・スピーカー
2021.10.10 音声ファイルの切貼り
2022.09.16 USB-MIDI
2023.01.16 MAX98537 & PCM5102
2023.03.15 音源サンプリング
2023.06.16 ヤマハ音源IC YMZ294
2024.01.07 内蔵DACによるWAV再生
2024.03.23 Piano Hat for MIDI
2024.08.08 シンプルな16bit DAC
2024.09.09 ESP32-S3 USB MIDI
2024.10.10 NANO ESP32 USB MIDI
2024.11.10 音声変換・参照音声編集
2024.11.24 音声変換 Seed-VC


Arduinoで学ぶ組込みシステム入門(第2版)
●Arduinoを使って組込みシステム開発を理解する
・ハードウェアやソフトウェアなどの基礎知識/ ・設計から実装までを系統的に説明するモデルベース開発/ ・Arduinoを用いた実際の開発例

最新 使える! MATLAB 第3版
◆◆すぐに「使える!」 全ページフルカラー!◆◆
・MATLAB R2022bに対応し、解説もより詳しく!/ ・コマンド・スクリプトの例が豊富で、動かして学べる!/ ・超基本から解説。これから使いはじめる人にぴったり!/ ・全編フルカラー、スクリーンショットも豊富!

Amazon Web Services基礎からのネットワーク&サーバー構築改訂4版
1.システム構築をインフラから始めるには/ 2.ネットワークを構築する/ 3.サーバーを構築する/ 4.Webサーバーソフトをインストールする/ 5.HTTPの動きを確認する/ 6.プライベートサブネットを構築する/ 7.NATを構築する/ 8.DBを用いたブログシステムの構築/ 9.TCP/IPによる通信の仕組みを理解する

C言語は第二の母国語: 独学学生時代から企業内IT職人時代に培った、独立のための技術とノウハウ 平田豊著
学生時代から独学でプログラミングをはじめ、企業内でデバイスドライバを開発し、そして独立後もたくさんのアプリケーション開発や技術書制作に携わってきた著者。その筆者が大事に使い続ける「C言語」の“昔と今”について、気づいたことや役立つ知識、使ってきたツールなどについて、これまで記してきたことを整理してまとめました。 本書では、現役プログラマーだけでなく、これからプログラミングを学ぶ学生などにも有益な情報やノウハウを、筆者の経験を元に紹介しています。

1冊ですべて身につくJavaScript入門講座
・最初の一歩が踏み出せる! 初心者に寄り添うやさしい解説 ・最新の技術が身につく! 今のJavaScriptの書き方・使い方 ・絶対に知っておきたい! アニメーションとイベントの知識 ・プログラミングの基本から実装方法まですべて学べる

図解! Git & GitHubのツボとコツがゼッタイにわかる本
ソフトウェア開発では欠かすことのできないGit、GitHub。 これからGit、GitHubを使いたいという入門者の方でも、実際に手を動かしながら使い方を学べます。

C自作の鉄則!2023 (日経BPパソコンベストムック)
メーカー製のパソコンはスペックが中途半端で、自分が本当に欲しい機種がない――。そう思っている人には、ぜひ自作パソコンをお薦めします。自作パソコンのパーツは進化が速く、しかも驚くほど種類が豊富。価格も性能も、幅広く用意されているため、満足度100%の“自分だけの1台”を手に入れることができます。

Interface 2023年6月号
特集:第1部 フィルタ設計 基礎の基礎/ 第2部 係数アプリや波形観測アプリで合点!FIR&IIRフィルタ作り/ 第3部 配布プリント基板で体験!マイコンで動くフィルタ作り

日経Linux 2023年5月号
【特集 1】 AI時代の最強フリーソフト ~ 25のやりたいを実現! 【特集 2】 AWS、Azureのうまみを無料で体感!面倒なことはクラウドに任せよう 【特集 3】 新しいRaspberry Pi Cameraで遊んでみよう 【特集 4】 Linuxで旧型PCを復活! 1kg切るモバイルPCを「ChromeOS Flex」でChromebook化

ラズパイマガジン2022年秋号
特集:5大人気ボード 電子工作超入門
「半導体不足で在庫が不足し、電子工作のボードがなかなか買えない…」。そんな今にふさわしい特集を企画しました。5種の人気ボードにすべて対応した電子工作の入門特集です。「GPIO」や「I2C」を使った電子パーツの制御方法は、どのボードでも同じです。手に入れられたボードを使って、今こそ電子工作を始めましょう。

地方で稼ぐ! ITエンジニアのすすめ
学歴、理系の知識、専門スキル……全部なくてもITエンジニアになれる! 地方でも高収入でやりがいをもって働ける!ITエンジニアの魅力を一挙大公開

Raspberry Piのはじめ方2022
本書は、ラズパイやPicoの買い方やインストール、初期設定といった基本から、サーバー、電子工作、IoT、AIといったラズパイならではの活用方法まで、1冊でお届けします。 ラズパイをこれから始める方向けに、全36ページの入門マンガ「女子高生とラズベリーパイ」も巻末に掲載。これを読むだけでラズパイがどんなものなのか、すぐに分かって触れるようになります。

ハッカーの学校 IoTハッキングの教科書
生活にとけこみ、家電機器を便利にするIoT技術。 Webカメラなど、便利の裏側に潜むセキュリティの危険性をハッキングで検証。 専門家がパケットキャプチャからハードウェアハッキングまで、その攻撃と防御を徹底解説。 本書は2018年7月に刊行された「ハッカーの学校IoTハッキングの教科書」に一部修正を加えた第2版です。

攻撃手法を学んで防御せよ! 押さえておくべきIoTハッキング
本書は、経済産業省から2021年4月にリリースされた、IoTセキュリティを対象とした『機器のサイバーセキュリティ確保のためのセキュリティ検証の手引き』の『別冊2 機器メーカに向けた脅威分析及びセキュリティ検証の解説書』をもとに、IoT機器の開発者や品質保証の担当者が、攻撃者の視点に立ってセキュリティ検証を実践するための手法を、事例とともに詳細に解説しました。

ポチらせる文章術
販売サイト・ネット広告・メルマガ・ブログ・ホームページ・SNS… 全WEB媒体で効果バツグン! カリスマコピーライターが教える「見てもらう」「買ってもらう」「共感してもらう」すべてに効くネット文章術

プログラマーは世界をどう見ているのか 西村博之著
イーロン・マスク(テスラ)、ジェフ・べゾス(Amazon)、ラリー・ペイジ(Google)…etc. 世界のトップはなぜプログラマーなのか?

ニーア オートマタ PLAY ARTS改 <ヨルハ 二号 B型 DX版> PVC製 塗装済み可動フィギュア
「NieR:Automata」より、ヨルハ二号B型こと2BがPLAY ARTS改に新たに登場! 高級感の感じられるコスチュームや髪の質感、洗練されたボディバランス、細かなデティールに至るまでこだわり抜かれた逸品。 DX版には通常版のラインナップに加え2Bの随行支援ユニット ポッド042などをはじめ“純白の美しい太刀"白の約定やエフェクトパーツ、自爆モードを再現できる換装用ボディパーツ、シーンに合わせて変えられる顔パーツ2種も付属する豪華な仕様に。 作中のあらゆるシーンを再現することが可能なファン必見の一品となっている。

Newtonライト2.0 ベイズ統計
ベイズ統計は,結果から原因を推定する統計学です。AIや医療などの幅広い分野で応用されています。その基礎となるのは18世紀に考えだされた「ベイズの定理」です。 この本では,ベイズ統計学のきほんをやさしく紹介していきます。

白光(HAKKO) ダイヤル式温度制御はんだ吸取器 ハンディタイプ FR301-81


無水エタノールP 500mlx2個パック(掃除)


ケイバ(KEIBA) マイクロニッパー MN-A04


サンハヤト SAD-101 ニューブレッドボード


白光(HAKKO) HEXSOL 巻はんだ 精密プリント基板用 150g FS402-02


[Amazon限定ブランド]【指定第2類医薬品】PHARMA CHOICE 解熱鎮痛薬 解熱鎮痛錠IP 100錠


Copyright © 2011-2024 Sarako Tsukiyono All rights reserved®.