HOME | Raspberry Pi | ビジネス書籍紹介 | 2021-09-19 (Sun) Today's Access : 154 Total : 354148. Since 10 Sep. 2019

テキスト読み上げ AquesTalk pico LSI
2020.05.19

YouTubeでポイントを説明しています。画像をクリックすると再生できます。

テキストの音声読上げの第2弾です。
前回は、MITライセンスの gTTS (Google Text to Speech)を利用して、ソフトウェアにより音声合成を行い、テキストを読み上げました。
今回はAquesTalk音声合成LSIを用いて、日本語テキストを読み上げてみたいと思います。


音声合成エンジンAquesTalkは、組み込み用に開発された小型軽量のエンジンで、テキスト情報をリアルタイムに音声に変換して出力します。
AquesTalkには4種類ののエンジンがあります。
規則音声合成エンジン AquesTalkシリーズ

■AquesTalkシリーズ
AquesTalk1 (旧AquesTalk)
声の種類は1つに固定されていて基本は女声ですが、別途8種類の中から選択もできます。16bit CPUから動作します。
AquesTalk2
声の種類を規定する16KB程度のデータを差し換えることで、動的に14種の中から声種を切り替えられる特長を持っています。
AquesTalk10
32bitシステムへの組み込みに最適な最新の音声合成エンジンです。 AquesTalk,AquesTalk2の後継として、両エンジンの特徴を維持したまま、クリアな声質、高い明瞭性、パラメータで声質を調整可能などの特徴を持っています。
AquesTalk pico
シリーズ中、最小サイズのエンジンです。RAM500byte、ROM30Kbyte、8bit CPUという比類ない極小リソースでリアルタイムの音声合成ができます。リソース制約の厳しい小型の組み込み機器に適しています。 このエンジンを1チップマイコンに組み込んだ音声合成LSI AquesTalk pico LSI も販売しています。

■製品
AquesTalk Pico LSI
AquesTalk picoエンジンを組み込んだ1チップの音声合成LSIです。
AquesTalk ESP32
Espressif Systems製のマイクロコントローラ ESP32用の音声合成ライブラリです。 AqKanji2Koe-MとAquesTalk picoエンジンが移植されており、漢字を含むテキストからの音声合成ができます。
AquesTalk Pi
Raspberry Pi 上で音声合成を可能にするアプリケーションプログラムです。 AqKanji2Koe-AとAquesTalk(1)エンジンが使われており、少ない処理量で高速に音声合成できます。
AquesTalk TTS
Android TTS API準拠のテキスト音声合成エンジン アプリです(ライブラリではありません)。 AqKanji2Koe-AとAquesTalk(1)エンジンが使用されています。 AquesTalk10エンジンを採用し、機能も拡張した 「AquesTalk TTS Pro」もあります。

今回使用したのは、AquesTalk Pico LSI で、かな表記の音声記号列を音声に変換する音声合成LSIです。
この音声記号列は、簡単にいうと、ローマ字表記のASCIIテキストを、アクセント記号、句切記号、タグ記号で装飾したものです。
Atmel社(Microchip社)の8bitマイクロコントローラ ATmega328Pに、音声合成ミドルウェアAquesTalk pio をファームウェアとして搭載した製品です。
・ATP3011F1-PU:ゆっくりな女性の音声
・ATP3012R5-PU:小型ロボットの音声
の2つを秋月電子通商さんで購入しました。

■配線
ベースがATMega328 なので、Arduino uno の使用方法と違いはなく、必要なピンのみを引き出します。
・1番のリセットピンはLOWでリセットが掛かるので、3.3Vに繋いでHIGHにします。
・2,3番ピンはUART通信用です。ラズパイの8,10番ピンと接続します。
・7番ピンは電源へ、8番ピンはGNDに接続します。
・9,10番ピンは、16MHz発振器に接続して、コンデンサを介して、GNDに落とし込みます。
・11番ピンは、動作クロックの指定で、HIGHにすると16MHz、LOWで10MHzで動作します。
詳細は音声合成LSI「AquesTalk pico LSI」ATP301Xのデータシートを参照してください。

また、ATP3012シリーズとATP3011シリーズでは若干の違いがあります。
ATP3011では、内部クロックを使用しているので、外部に発振器を取り付ける必要はありません。 音声出力用で使用するピンも異なります。

データシートにある外部スピーカーの配線図です。


ブレッドボード上に配線すると、こんな感じになります。

ATP3012で使用した電子部品
水晶発振器(16MHz)
セラミックコンデンサ 22pF(22)×2
抵抗10KΩ×2
基板取付用スピーカーユニット 8Ω0.08W 700~4kHz
抵抗5.1KΩ
トランジスタ 2SC1815
ユニバーサルプリント基板×2

補足:Arduinoボードを利用した簡易動作
ATP3012/ATP3011のベースチップは、Arduino unoと互換性があるので、Arduino uno に実装されている ATmega328(P)をATP3012に差し替えることで、簡単に評価、動作を確認することもできるようです。

■日本語文字をローマ字に変換する
AquesTalkの音声合成エンジンは、漢字を含むテキストを、かな表記の音声記号列に変換する言語処理部 AqKanji2Koeと、 音声記号列を音声に変換する規則音声合成部 AquesTalkの2つのモジュールに分かれています。

言語処理ライブラリAqKanji2Koeを使用するにはライセンス購入が必要になりますので、 今回はこの言語処理ライブラリは使わずに、漢字をローマ字に変換できるPythonライブラリ "pykakasi" を使ってみました。

pykakasiモジュールのインストール
$ sudo pip3 install git+https://github.com/miurahr/pykakasi

pythonを起動して、kakasiの機能を確認していきます。
$ python3
>>> from pykakasi import kakasi
>>> kakasi = kakasi()
>>> kakasi.setMode('H', 'a')
>>> kakasi.setMode('K', 'a')
>>> kakasi.setMode('J', 'a')
>>> conv = kakasi.getConverter()
ライブラリーをインポートします。setMode では、カタカナ、ひらがな、漢字をローマ字に変換するよう指示しています。
setModeオプション指定
OptionDescriptionValuesNote
KKatakana conversiona,H,Noneroman, Hiragana or non conversion
HHiragana conversiona,K,Noneroman, Katakana or non conversion
JKanji conversiona,H,K,Noneroman or Hiragana, Katakana or noconv
aRoman conversionE,NoneJIS ROMAN or non conversion
EJIS ROMAN conversiona,Noneascii roman or non conversion

次にどう変換されるか確認しておきます。

>>> text='きょうの天気は、曇り時々晴れです'
>>> print(conv.do(text))
kyounotenkiha、kumoritokidokiharedesu
日常的な文章はかなり正確に変換されるようです。
ただ、AquesTalkでは「は」を「わ」として発音したい場合は、ローマ字よみを「wa」とする必要があります。

特殊記号を変換してみます。
>>> text = '?!~ー()“”「」・、。..'
>>> print(conv.do(text))
?!~-()“”「」.、。..
音を延ばす記号と、中ドット以外は、そのまま出力されています。
おそらく、kakasiの辞書に登録されていない漢字はそのまま出力するのでしょう。

固有名詞を変換してみます。
>>> text='どうも霊夢です。魔理沙です'
>>> print(conv.do(text))
doumoreiyumedesu。marisadesu
固有名詞も、kakasiで変換する前に、独自に変換する必要があります。
なぜ、「魔理沙」が正確に変換されたかというと、kakasiの内部で単語が「魔」と「理沙」に分解されて、変換されたからです。

母音がダブる場合
>>> text = '大きい'
>>> print(conv.do(text))
ookii
「oo」→「o-」、「ii」→「i-」にして、母音を延ばすようにしたほうが、聞きやすいかもしれません。

■AquesTalk音声記号列仕様(抜粋)
'アクセント
.文の終わり
? 文の終わり、文末の声が高めになる
(半角空白) 無音区間がはいる。
文中の息継ぎ部分に指定する。一般に次の音が高くなる。
,半角空白より短いボーズ

kakasiで変換する前に実施する置換処理
霊夢→reimu、は、→wa,、?→?、~→kara など

kakasiでの変換後に追加する置換処理
uu→u-、oo→o-、ee→e-、aa→a-、ii→i-、iu→yu- など

■日本語→ローマ字変換処理
Pythonコードの抜粋です。辞書の部分は用途に応じて変更してください。
    DICT_BEFORE = {'霊夢':'reimu','は、':'wa,',
        '?':'?','!':'\'.','~':'kara','、':',','。':'.'}
    DICT_AFTER = {'uu':'u-','oo':'o-','ee':'e-',
        'aa':'a-','ii':'i-','iu':'yu-','ha,':'wa,'}

    def kanji2roman(self, msg):

        for target, dest in self.DICT_BEFORE.items():
            msg = msg.replace(target,dest)

        msg = self.cnv.do(msg)

        for target, dest in self.DICT_AFTER.items():
            msg = msg.replace(target,dest)

        return msg;
■AquesTalk pico LSIとのUART通信
ローマ字テキストの終端にCR(0x0D)を付加して、送信します。
LSIが発音中に、追加のテキストを送信すると、BUSY(*)が返されます。 READY(>)になるのを確認してから、次のテキストを送信します。

UART通信制御用のコードの抜粋は下記のようになります。
    def write(self, msg):

        self.msg = self.kanji2roman(msg) + "\r"

        while True:

            self.ser.write(bytes("\r",'ascii'))
            rx = self.ser.read()
            status = rx.decode('utf-8')

            if status=='*':    # busy
                sleep(1)
            elif status=='>':  # ready
                self.ser.write(bytes(self.msg,'ascii'))
                rx = self.ser.read()
                break
ATP3012での転送速度(ボーレート)はデフォルトで9600bpsです。
ATP3011でのUART通信では、ボーレート自動設定のため、最初に'?'を送信する必要があります。

    if model == 'ATP3011':
        self.ser.write(bytes('?','ascii'))
        rx = self.ser.read()
動作が確認できましたら、ブレッドボードからユニバーサルプリント基板へ移し込みます。 LSIは交換可能なように、丸ピンICソケット上に挿しています。

スピーカー部分を分離して作成しています。回路上の抵抗は変更可能なように、丸ピンICソケット上に挿しています。


Raspberry Pi Zero WH とつなぐと、こんな感じになります。


実際の使い方としては、動的に日本語をAquesTalkに合った、かな表記の音声記号列に換えるのではなく、 定型文章的な用途においてあからじめ適切な音声記号列に編集しておいて、音声合成させるほうがよいと思います。

■サンプルソースコード
from serial   import Serial
from time     import sleep
from pykakasi import kakasi

import time
import sys

class text2speech(object):

	SERIALPORT = '/dev/ttyAMA0'
	DEVICE     = 'ATP3012'

	TIMEOUT   = 3
	BAUDRATE = 9600
	DICT_BEFORE = {'霊夢':'reimu','は、':'wa,','?':'?','!':'\'.','~':'kara',
		'(':',',')':',','「':',','」':',','、':',','':'','。':'.','.':'.',}
	DICT_AFTER = {'uu':'u-','oo':'o-','ou':'o-','ee':'e-','aa':'a-','ii':'i-','iu':'yu-','ha,':'wa,'}

	def __init__(self, model='ATP3012'):

		self.model=model

		self.ser = Serial(self.SERIALPORT, baudrate=self.BAUDRATE, timeout=self.TIMEOUT)

		self.kks = kakasi()
		self.kks.setMode('H', 'a')
		self.kks.setMode('K', 'a')
		self.kks.setMode('J', 'a')
		self.cnv = self.kks.getConverter()

		if model == 'ATP3011':
			self.ser.write(bytes('?','ascii'))
			rx = self.ser.read()

	def kanji2roman(self, msg):

		for target, dest in self.DICT_BEFORE.items():
			msg = msg.replace(target,dest)

		msg = self.cnv.do(msg)

		for target, dest in self.DICT_AFTER.items():
			msg = msg.replace(target,dest)

		return msg;

	def write(self, msg):

		#self.msg = self.kanji2roman(msg) + "\r"
		self.msg = msg

		while True:

			self.ser.write(bytes("\r",'ascii'))
			rx = self.ser.read()
			status = rx.decode('utf-8') # status is null

			if status=='*':    # busy
				sleep(1)
			elif status=='>':  # ready
				self.ser.write(bytes(self.msg,'ascii'))
				rx = self.ser.read()
				break

if __name__ == '__main__':

	import sys, os

	if len(sys.argv) == 2:
		model = sys.argv[1]
	else:
		model = text2speech.DEVICE

	if not os.path.exists(text2speech.SERIALPORT):
		sys.exit("ERROR: Serial port not found at: %s" % text2speech.SERIALPORT)

	print ("Testing AquesTalk Pico LSI: %s" % model)

	ts = text2speech(model=model)

	text='きょうの天気は、曇り時々晴れです'
	ts.write(text)

ATP3011はLSIと抵抗1本で済んでしまうため、スピーカーと一体型にしてしまいました。


【参考文献】
日本語文字をローマ字に変換する
Pykakasiで文章をひらがなへのバラバラ変換して遊んでみた♪
PYKAKASI documentation
自作Arduino互換回路(ブレッドボード版)
 Raspberry Pi(ラズベリー パイ)は、ARMプロセッサを搭載したシングルボードコンピュータ。イギリスのラズベリーパイ財団によって開発されている。
2020.01.05 第1回 abcjs 楽譜作成・演奏スクリプト
2020.01.09 I2S通信によるハイレゾ音源再生
2020.01.18 MIDI再生:FM音源YMF825+Arduino編
2020.01.24 FM音源YMF825+micro:bit編
2020.02.13 Piano Hat & Rosegarden
2020.03.18 テキスト読み上げ gTTS
2020.05.19 テキスト読み上げ AquesTalk pico LSI
2020.06.22 波形処理 第1回 音の波と三角関数
2020.07.22 波形処理 第2回 平均律と純正律
2020.08.26 波形処理 第3回 黒鍵と白鍵
2020.11.21 深層学習 第1回環境整備
2020.12.19 深層学習 第2回マルコフ連鎖・自動歌詞生成
2021.01.02 深層学習 第3回コード進行解析
2021.01.16 波形処理 第4回 コード演奏
2021.08.07 MIDI制御/Adafruit Music Maker
2021.08.23 MIDIフォーマット解析
2021.08.24 オーディオアンプ・スピーカー


ニーア オートマタ PLAY ARTS改 <ヨルハ 二号 B型 DX版> PVC製 塗装済み可動フィギュア
「NieR:Automata」より、ヨルハ二号B型こと2BがPLAY ARTS改に新たに登場! 高級感の感じられるコスチュームや髪の質感、洗練されたボディバランス、細かなデティールに至るまでこだわり抜かれた逸品。 DX版には通常版のラインナップに加え2Bの随行支援ユニット ポッド042などをはじめ“純白の美しい太刀"白の約定やエフェクトパーツ、自爆モードを再現できる換装用ボディパーツ、シーンに合わせて変えられる顔パーツ2種も付属する豪華な仕様に。 作中のあらゆるシーンを再現することが可能なファン必見の一品となっている。

DIPスイッチで動作電圧を3.3Vと5Vに切り替えられるUNO互換ボード
KEYESTUDIO Plus Board for Arduino UNO R3 with Type-C USB Cable, 3.3V 5V 1.5A Output Current, More Powerful Controller Board USB-シリアルチップ:CP2102 / 動作電圧:5Vまたは3.3V(DIPスイッチ制御)/ 外部電源:DC 6-15V(9V推奨)/ デジタルI / Oピン:14(D0〜D13)/ PWMチャネル:6(D3 D5 D6 D9 D10 D11)/ アナログ入力チャネル(ADC):8(A0-A7)/ DC出力機能の各I / Oポート:20 mA / 3.3Vポートの出力能力:50 mA / フラッシュメモリ:32 KB(うち0.5 KBはブートローダーによって使用されます)/ SRAM:2 KB(ATMEGA328P-AU)/ EEPROM:1 KB(ATMEGA328P-AU)/ クロック速度:16MHz / オンボードLEDピン:D13

エレクトロクッキー Leonardo R3 ATmega32u4 ボード DIY Arduino工作用 - ピンクエディション


Newtonライト2.0 ベイズ統計
ベイズ統計は,結果から原因を推定する統計学です。AIや医療などの幅広い分野で応用されています。その基礎となるのは18世紀に考えだされた「ベイズの定理」です。 この本では,ベイズ統計学のきほんをやさしく紹介していきます。

Interface 2021年10月号
☆特集:~ 格好良さアップ! 機能&信頼性アップ ! ~「 3Dプリンタ & メカ設計入門 」
☆特集2:Pico達人への道…「 C/C++でMicroPython拡張 」


トランジスタ技術 2021年9月号
☆特集:~ 直流・交流・非接触・センサ微小電流の測定ノウハウ ~「電流を正しく測る技術」

トランジスタ技術スペシャル 2021年7月号 宇宙ロケット開発入門
これから開発・活用が進むと期待されている宇宙空間への交通・物流インフラとして、小型・低価格ロケットが注目を集めています。本書では、基本構造から制御メカニズムまで、小型宇宙ロケット開発の基礎知識を実例を交えて解説します。

日経Linux 2021年9月号
【特集1】おうち時間をLinuxデスクトップで楽しむ! Linux環境を作るワザ
【特集2】徹底図解で丸わかり! 「WSL2」入門   Windows 11の新機能を速報!
【特集3】IT自動化ツール AnsibleでWeb導入を自動化
【特集4】ラズパイで楽しむLinuxライフ 「今、会議中」と家族に伝えるプレートをPythonで作ろう


ラズパイマガジン2021年秋号
特集1 サクッと動くパーツ&ライブラリ総覧
特集2 ArduinoライブラリでラズパイPicoを動かす
特集3 古いラズパイをフル活用! Node-REDで 楽しい電子工作
特集4 空気の汚れをラズパイで検知しよう
特集5 ラズパイで楽しむLinuxライフ
特集6 NVIDIAのAIボードが6000円台に!
特集7 M5StickCで始める電子工作 iPhoneからサーボモーターを制御しよう


トランジスタ技術スペシャル 2021年 4月号 No.154「達人への道 電子回路のツボ」
初学者が実用的な電子回路を設計できるようになるためのポイントをまとめました。学校の教科書だけではつかめない基本電子回路やOPアンプ/トランジスタの使い方の実際を、いろいろな視点から解説しています。


Raspberry Pi 3 Model B V1.2 (日本製) 国内正規代理店品
【仕様概要】CPU:ARM 1.2GHz 4コア、GPU:2コア 3D・動画支援、RAM:1GB、ネットワーク:LAN/Wi-Fi/Bluetooth、インターフェース:USB/HDMI/オーディオ/GPIO(UART/I2C/I2S/SPI...)。

ELEGOO Arduino用 Nanoボード V3.0 CH340/ATmega328P、Nano V3.0互換 (3)


ESPr Developer 32
スイッチサイエンス(Switch Science)

協和ハーモネット UL1007 AWG24 耐熱ビニル絶縁電線 リール巻 100m 黒


白光(HAKKO) ダイヤル式温度制御はんだ吸取器 ハンディタイプ FR301-81


サンハヤト TTW-203 テストワイヤ
ブレッドボードとスルーホール間の接続に便利なワイヤですブレッドボード用のオスピンと基板のスルーホール用のバネ性のある端子を組み合わせたテストワイヤです

無水エタノールP 500mlx2個パック(掃除)


ケイバ(KEIBA) マイクロニッパー MN-A04


熱収縮チューブφ1.5
印字無しで綺麗☆ シュリンクチューブ 絶縁チューブ 防水 高難燃性 収縮チューブ (2m, ブラック(黒))


サンハヤト SAD-101 ニューブレッドボード


白光(HAKKO) HEXSOL 巻はんだ 精密プリント基板用 150g FS402-02


【Amazon.co.jp限定】エーモン 電工ペンチ 全長約255mm (1452)


[Amazon限定ブランド]【指定第2類医薬品】PHARMA CHOICE 解熱鎮痛薬 解熱鎮痛錠IP 100錠


Copyright © 2011-2022 Sarako Tsukiyono All rights reserved®.