深層学習第2回マルコフ連鎖・自動歌詞生成
2020.12.19 / 2022.02.05更新
YouTube でも紹介しています。画像をクリックすると再生できます。
深層学習第2回では、既存の歌詞データを集めて、新たな歌詞を自動生成します。
楽曲情報サイトからスクレイピングして、深層学習によりアイドルソングを自動生成するという内容です。
スクレイピングまでは、PHPで行い、その後の深層学習はPythonに任せています。
多角的に理解しやすいように、今回は「暮らしの小さじ」さんの「アイドルソングを自動生成してみた (1)歌詞生成」と
同じデータソースを用いて、深層学習の実験をしてみました。
深層学習の目的のはっきりしない入門書よりも、「暮らしの小さじ」さんの記事は非常に役に立つと思いますので、ぜひ一読してみてください。

→ 暮らしの小さじ - アイドルソングを自動生成してみた (1)歌詞生成
■スクレイピング
国内最大級の歌詞コードサイト「楽器.me」から、アイドルグループ「BiSH」を検索してみます。

→ 楽器.me - 「BiSH」のコード譜一覧 ( 66件 )
ブラウザのソース表示機能で、ソースコードを表示してhtmlタグのツリー構造を確認します。
楽曲名とその詳細情報へのリンク情報を表記したタグを探します。
<div id="ranking_list">
<!--<meta LIST-START>-->
<div class="wrap">
<div class="detail">
<div class="box">
<!--<p class="catch">リクエスト掲載曲</p>-->
<p class="mname">
<a href="/m/data/RQ05803.html">「オーケストラ」</a>
<small><a href="/search/?mode=list&word=AT:BiSH">BiSH</a></small>
</p>
</div>
</div>
</div>
<!--<meta LIST-END>-->
****meta LIST の繰り返し****
</div>
楽曲名とその詳細情報へのリンク情報を取得するプログラムを作ります。
gakufumelink.php
<?php
$url = 'https://gakufu.gakki.me/search/?mode=list&word='.$_REQUEST['word'];
$dom = new DOMDocument;
@$dom->loadHTMLFile($url);
$xpath = new DOMXPath($dom);
$entries = [];
foreach ($xpath->query('//div[@class="box"]') as $node) {
$entries[] = [
'url' => $xpath->evaluate('string(.//p[@class="mname"]/a/@href)', $node),
'mname' => $xpath->evaluate('string(.//p[@class="mname"]/a)', $node),
];
}
foreach($entries as $entry) {
echo $entry['url']."<br />\n";
echo $entry['mname']."<br />\n";
}
?>
上記プログラムを第1回で環境設定したWEBサーバーのドキュメントルートに配置して、ブラウザから
http://127.0.0.1/gakufumelink.php?word=AT:BiSH
楽器.meサイトから楽曲名とその楽曲情報へのリンク情報を取得して、結果をブラウザに表示しています
/m/data/RQ05803.html
「オーケストラ」
/m/data/N07715.html
「プロミスザスター」
/m/data/KC00245.html
「BiSH-星が瞬く夜に」
....
続いて、ブラウザ上から楽曲名「オーケストラ」の情報にアクセスしてみます。
楽器meのドキュメントルート(https://gakufu.gakki.me)に、gakufumelink.php で取得したリンク情報(/m/data/RQ05803.html)を付加してアクセスします。
https://gakufu.gakki.me/m/data/RQ05803.html

コード進行とその下に歌詞が表示されています。先ほどと同様にツリー構造を解析します。
<div class="cd_1line">
<div class="cd_pic cd_font" style="border:1px solid #fff; height:68px;">
<div class="cd_width4 cd_style cd_font">
<span class="cd_fontpos">E<br /><img src="/img/codet/E/E_low.gif" class="cd_img"></span>
</div>
</div>
<div class="cd_pic blue" style="border:1px solid #fff; height:26px;">
<div class="cd_txt cd_width cd_style">見</div>
<div class="cd_txt cd_width cd_style">上</div>
<div class="cd_txt cd_width cd_style">げ</div>
<div class="cd_txt cd_width cd_style">た</div>
<div class="cd_txt cd_width cd_style">あ</div>
</div>
</div>
**** 繰り返し ****
<div class="cd_1line">
・・・・・・
</div>
今度は、コードと歌詞の部分を抽出するプログラムを作ります。
gakufumenote.php
<?php
function getLyrics($url) {
$dom = new DOMDocument;
@$dom->loadHTMLFile($url);
$xpath = new DOMXPath($dom);
$codes =null;
$lyrics =null;
foreach ($xpath->query('//div[@class="cd_1line"]') as $node) {
foreach ($xpath->query('.//div[@class="cd_pic cd_font"]/div/span',$node) as $subNode) {
if ($codes) $codes .='>';
$codes .= $subNode->nodeValue;
}
foreach ($xpath->query('.//div[@class="cd_pic blue"]/div',$node) as $subNode) {
$lyrics .= $subNode->nodeValue;
}
}
// 半角、全角空白どちらも削除
$lyrics = preg_replace("/( | )/", "", $lyrics );
// NO-BREAK SPACE (C2A0)削除
$lyrics = str_replace( "\xc2\xa0", "", $lyrics );
return array($codes,$lyrics);
}
$url = $_REQUEST['url'];
list($codes,$lyrics) = getLyrics($url);
echo $codes."<br />\n";
echo $lyrics."<br />\n";
?>
ブラウザから
http://127.0.0.1/gakufumenote.php?url=https://gakufu.gakki.me/m/data/RQ05803.html
「オーケストラ」のコード進行と、歌詞を整形してブラウザ画面に表示させています。
E>B>C#m>A>E>B>C#m>A>E>E>A>A>EonG#>F#m>F#m>B>B>E>E>A>A>EonG#>F#m>F#m>B>B>E>B>C#m>D>Bsus4>B>E>B>C#m>D>B>A>BonA>G#m>C#m>F#m>B>E>F#m>B>G#m>C#m>F#m>G#m>A>F#onA#>B>E>B>C#m>Bm>A>G#m>C#>C#onB>F#m>G#m>Am>B>E>B>C#m>Bm>A>G#m>C#>C#onB>F#m>G#m>Am>B>E>E>A>A>EonG#>F#m>F#m>B>B>E>B>C#m>D>Bsus4>B>E>B>C#m>D>B>A>BonA>G#m>C#m>F#m>B>E>F#m>B>G#m>C#m>F#m>G#m>A>F#onA#>B>E>B>C#m>Bm>A>G#m>C#>C#onB>F#m>G#m>Am>B>E>B>C#m>Bm>A>G#m>C#>C#onB>F#m>G#m>Am>B>EonG#>EonG#>A>A>EonG#>EonG#>A>A>EonG#>EonG#>A>A>F#m>F#m>B>B>B>B>E>B>C#m>Bm>A>G#m>C#>C#onB>F#m>G#m>Am>B>E>B>C#m>Bm>A>G#m>C#>C#onB>F#m>G#m>Am>B>E>E>A>A>EonG#>F#m>F#m>B>B>E>E>A>A>EonG#>F#m>F#m>B>B>E
見上げたあの夜空に浮かぶ星達ふと君の声があの頃輝いてたかな?今になってはずっと分からないままあの時君がついた嘘問いただせずに泣いたあの坂道この先君と会えないの離れ離れに身を任せてたいつもの後悔が風に消えてく誰にもみせないその姿をもうちょっとだけ見てたかったんだ時がそっと睨んでいるその手と手繋いで笑いあった声忘れはしないよこんなにも流してた涙も語る声もオーケストラやがて訪れたよねさよならの声忘れはしないよあんなにも近くにいたはずが今では繋がりなんてあの空だけ夜空の交換をしよう馬鹿らしくなって投げた午前3時この先君と何年も時の流れに身を任せてもいつものジョークが街に消えてく誰にも見せない僕の姿をもうちょっとだけ見せたかったんだ時がそっと睨んでいるこの目と目合わせてはっきりとしたいもうできないかなこんなにもどかしくて辛いのが音を立てるオーケストラどこで何をしてるの?分からないのは僕のせいなんだね永遠にこんな日がくるなんて神様イタズラなら呪いたいぐらいその手と手繋いで笑いあった声忘れはしないよこんなにも流してた涙も語る声もオーケストラやがて訪れたよねさよならの声忘れはしないよあんなにも近くにいたはずが今では繋がりなんてこの空だけ
プログラムが正常に動作することを確認しましたら、2つのプログラムを纏めて、BiSHの登録楽曲すべてを取得して、JSON形式のファイルに保存するように書き換えます。
gakufume.php
<?php
function getLyrics($url) {
$dom = new DOMDocument;
@$dom->loadHTMLFile($url);
$xpath = new DOMXPath($dom);
$codes =null;
$lyrics =null;
foreach ($xpath->query('//div[@class="cd_1line"]') as $node) {
foreach ($xpath->query('.//div[@class="cd_pic cd_font"]/div/span',$node) as $subNode) {
if ($codes) $codes .='>';
$codes .= $subNode->nodeValue;
}
foreach ($xpath->query('.//div[@class="cd_pic blue"]/div',$node) as $subNode) {
$lyrics .= $subNode->nodeValue;
}
}
// 半角、全角空白どちらも削除
$lyrics = preg_replace("/( | )/", "", $lyrics );
// NO-BREAK SPACE (C2A0)削除
$lyrics = str_replace( "\xc2\xa0", "", $lyrics );
return array($codes,$lyrics);
}
$url = 'https://gakufu.gakki.me/search/?mode=list&word='.$_REQUEST['word'];
$dom = new DOMDocument;
@$dom->loadHTMLFile($url);
$xpath = new DOMXPath($dom);
$entries = [];
foreach ($xpath->query('//div[@class="box"]') as $node) {
$entries[] = [
'url' => $xpath->evaluate('string(.//p[@class="mname"]/a/@href)', $node),
'mname' => $xpath->evaluate('string(.//p[@class="mname"]/a)', $node),
];
}
$notes = array();
foreach($entries as $entry) {
$link = 'https://gakufu.gakki.me'.$entry['url'];
$mname = $entry['mname'];
list($codes,$lyrics) = getLyrics($link);
$note = array('title'=>$mname,'codes'=>$codes,'lyrics'=>$lyrics);
$notes[] = $note;
}
$json = json_encode($notes);
$fp = fopen('lyrics.json', 'w');
fwrite($fp,$json);
fclose($fp);
?>
ブラウザから
http://127.0.0.1/gakufume.php?word=AT:BiSH
ちゃんと保存されたか確認してみましょう。
show_json.php
<?php
$filename = 'lyrics.json';
$fp = fopen($filename, 'r');
$json = fread($fp, filesize($filename));
fclose($fp);
$obj = json_decode($json,true);
foreach ($obj as $notes) {
foreach ($notes as $key=>$value) {
echo $key."=>".$value."<br>\n";
}
}
?>
ブラウザから
http://127.0.0.1/show_json.php
■わかち書き
文章を単語に分割することをわかち書きといいます。
日本語に対応したわかち書きとして広く利用されているのが、MeCab(和布蕪/めかぶ)です。
MeCabインストール
$ sudo apt install mecab libmecab-dev mecab-ipadic
$ sudo pip3 install mecab-python3
Successfully installed mecab-python3-1.0.3
MeCab辞書の文字コードを確認します。
$ mecab -D
filename: /var/lib/mecab/dic/debian/sys.dic
version: 102
charset: EUC-JP
type: 0
size: 392127
left size: 1316
right size: 1316
辞書をEUC-JPからutf8に再構築します。
まずは、MeCabのgithub:(http://taku910.github.io/mecab/)からIPA辞書をダウンロードします。
MeCab用の辞書/IPA 辞書:mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801
$ ./configure --with-charset=utf8 --enable-utf8-only
$ make
To enable dictionary, rewrite /etc/mecabrc as "dicrc = /usr/lib/arm-linux-gnueabihf/mecab/dic/ipadic"
$ sudo make install
$ sudo vi /etc/mecabrc
dicdir = /var/lib/mecab/dic/debian
↓変更
dicdir = /usr/lib/arm-linux-gnueabihf/mecab/dic/ipadic
※Raspberry Pi OS (64bit/Bullseye)の場合(2022.02.07)
dicdir = /usr/lib/aarch64-linux-gnu/mecab/dic/ipadic
MeCab辞書の文字コードを確認します。
$ mecab -D
filename: /usr/lib/arm-linux-gnueabihf/mecab/dic/ipadic/sys.dic
(filename: /usr/lib/aarch64-linux-gnu/mecab/dic/ipadic/sys.dic)
version: 102
charset: utf8
type: 0
size: 392127
left size: 1316
right size: 1316
それでは試しに、先に保存した楽曲データファイル lyrics.json から1曲目の「オーケストラ」の歌詞を取り出して、わかち書きしてみます。
ここからは、プログラムをpython で記述しています。
mecab-node.py
import json
import MeCab
tagger = MeCab.Tagger()
# 文章を単語に分割してリスト出力する
def tokenize(text):
node = tagger.parseToNode(text)
tokens = []
while node:
if node.surface != '':
tokens.append(node.surface)
node = node.next
return tokens
# JSON形式のテキストファイルを読み込む
path = './lyrics.json'
jsonText = open(path, 'r').read().encode('utf-8')
notes = json.loads(jsonText)
lyrics = notes[0]['lyrics']
words = tokenize(lyrics)
for word in words:
print(word)
実行してみましょう。
$ python3 mecab-node.py
見上げ
た
あの
夜空
に
浮かぶ
星
達
~~~(省略)~~~
繋がり
なんて
この
空
だけ
■歌詞データを学習させる (マルコフ連鎖)
ここでは3階マルコフ連鎖により学習させてみます。
3つの連続する単語を1組として、文章の先頭から1単語ずつずらしながら、辞書型の連想配列に登録していきます。
例えば、「見上げたあの夜空に浮かぶ星達」という文章は

の6つの連想配列として記録されます。
下記のプログラムでは、先のJSON形式で保存した歌詞データを読み込んで、辞書型の連想配列を生成しています。
すでに、学習済の連想配列がある場合は、そこに追加されるようになっています。
生成された辞書はJSON形式のファイルに保存されます。
markov.py
import json
import MeCab
import os
import re
tagger = MeCab.Tagger()
# 文章を単語に分割してリスト出力する
def tokenize(text):
node = tagger.parseToNode(text)
tokens = []
while node:
if node.surface != '':
tokens.append(node.surface)
node = node.next
return tokens
# 辞書を更新
def updateDic(words):
tmp = []
for word in words:
if word == "" or word == "\r\n" or word == "\n": continue
tmp.append(word)
if len(tmp) < 3: continue
if len(tmp) > 3: tmp = tmp[1:]
setWord3(tmp)
# 三要素のリストを辞書として登録
def setWord3(s3):
global dic
w1, w2, w3 = s3
if not w1 in dic: dic[w1] = {}
if not w2 in dic[w1]: dic[w1][w2] = {}
if not w3 in dic[w1][w2]: dic[w1][w2][w3] = 0
dic[w1][w2][w3] += 1
def dumpDic(dic):
for key_1st, value_1st in dic.items():
for key_2nd, value_2nd in value_1st.items():
for key_3rd, value_3rd in value_2nd.items():
print(key_1st,"→",key_2nd,"→",key_3rd,"=",value_3rd)
return
# JSON形式の楽曲ファイルを読み込む
path = './lyrics.json'
jsonText = open(path, 'r').read().encode('utf-8')
notes = json.loads(jsonText)
# JSON形式の辞書ファイルを読み込む
path = './markov-lyrics.json'
if(os.path.exists(path)):
jsonText = open(path, 'r').read().encode('utf-8')
dic = json.loads(jsonText)
else:
dic = {}
for note in notes:
lyrics = note['lyrics']
lyrics = re.sub(r'[A-z]+', "", lyrics) #アルファベットの削除
lyrics = re.sub(r'[\r\n]', "", lyrics) #改行などの削除
words = tokenize(lyrics)
updateDic(words)
dumpDic(dic)
json.dump(dic, open("markov-lyrics.json", "w", encoding="utf-8"))
このプログラムのロジックでは、並び順も考慮した3つの単語の組合せは、連想配列上に重複して存在することはありません。
def setWord3(s3):
global dic
w1, w2, w3 = s3
if not w1 in dic: dic[w1] = {}
if not w2 in dic[w1]: dic[w1][w2] = {}
if not w3 in dic[w1][w2]: dic[w1][w2][w3] = 0
dic[w1][w2][w3] += 1
3つの単語の並びが同じものは、3階層目のキーの値を利用して、出現頻度としてカウントアップしています。
それでは、学習させたBishの歌詞から、Bishっぽい新しい歌詞を生成してみましょう。
ソースコードの、変数 keyword に歌詞の先頭に使用する単語を設定してください。
make-lyrics.py
import json
import random
def word_choice(sel):
keys = sel.keys()
ran = random.choice(list(keys))
return ran
def make_sentence(dic,keyword):
ret = []
if not keyword in dic: return "no dic"
w1 = keyword
w2 = word_choice(dic[keyword])
ret.append(w1)
ret.append(w2)
while True:
w3 = word_choice(dic[w1][w2])
ret.append(w3)
if len(ret)>100 : break
w1, w2 = w2, w3
return "".join(ret)
dic = open("markov-lyrics.json" , "r")
dic = json.load(dic)
random.seed()
keyword = '見上げ'
s = make_sentence(dic,keyword)
print(s)
$ python3 make-lyrics.py
乱数を使用しているので、実行するたびに生成される歌詞が変わります。
見上げても逃げてくよ戻れないが嬉しさにそれじゃ乾杯☆言いたいけれど心で文字を打ってみてない でくれすべて届けるよ胸の奥を感じてどんな時でも傷が開いてたいわたしまだまだ足んない心ぜんぶ うめたいだけおいでおいでここまでおいで正直になってんだつらいんだひどく寂しいじゃないただイ ヤフォン耳に轟音再度よこす幻影茶適当言えなんじゃんねほら未熟者青春ビリーバーですありのまま で
さて、ここで重要になるのが1番目と2番目の単語から3番目の単語を選ぶ部分です。
w3 = word_choice(dic[w1][w2])
辞書に学習させる過程では、出現頻度をカウントアップしていました。
この出現頻度が多いほど、その単語の並びの結び付きが強いことになります。
見上げ→た →あの = 1
見上げ→て →た = 2
見上げ→て →も = 1
見上げ→たら→いつも= 3
1番目の単語「見上げ」、2番目の単語「て」に続く単語は「た」あるいは「も」の2つです。
現時点では学習データが少ないので、3番目に選ばれる単語は2つの中からランダムに選んでいます。
しかし、学習が進んでデータ数が増えたときには、この出現頻度も考慮して3番目の単語を選ぶようにロジックを変更すると、より自然な歌詞になるかもしれません。
マルコフ連鎖を理解すれば、他の深層学習も、この相関関係をより進化させたものも多いので、容易に理解を進めることができると思います。
■初心者向け参考文献
・PHPネイティブのDOMによるスクレイピング入門
・Python プログラミング「Pythonの基礎1」
・マルコフ連鎖を使って文章生成をしてみる
・辞書型、コツがわかると難しくない階層の辞書型、REST API→JSON→辞書型
|
Raspberry Pi(ラズベリー パイ)は、ARMプロセッサを搭載したシングルボードコンピュータ。イギリスのラズベリーパイ財団によって開発されている。
たいていのことは100日あれば、うまくいく。長田英知著
「時間がなくて、なかなか自分のやりたいことができない」
「一念発起して何かを始めても、いつも三日坊主で終わってしまう」
「色んなことを先延ばしにしたまま、時間だけが過ぎていく」
そこで本書では、そんな著者が独自に開発した、
まったく新しい目標達成メソッド「100日デザイン」について、
その知識と技術を、余すところなくご紹介します。
まんがで納得ナポレオン・ヒル 思考は現実化する
OLとして雑務をこなす日々に飽き足らず、科学者だった父が残した薬品を商品化すべく、起業を決意した内山麻由(27)。彼女はセミナーで知り合った謎の女性からサポートを得ながら、彼女と二人三脚でナポレオン・ヒルの成功哲学を実践し、さまざまな問題を乗り越えていく。
ヒル博士の<ゴールデンルール>に従い、仕事に、恋に全力疾走する彼女の、成功への物語。
今日は人生最悪で最高の日 1秒で世界を変えるたったひとつの方法 ひすいこたろう著
偉人の伝記を読むと、最悪な日は、不幸な日ではなく、新しい自分が始まる日であることがわかります。最悪な出来事は、自分の人生が、想像を超えて面白くなる兆しなのです。偉人伝を読むことで、このときの不幸があったおかげで、未来にこういう幸せがくるのかと、人生を俯瞰する視線が立ち上がるのです。
ご飯は私を裏切らない heisoku著
辛い現実から目を背けて食べるご飯は、いつも美味しく幸せを届けてくれる。
29歳、中卒、恋人いない歴イコール年齢。バイト以外の職歴もなく、短期バイトを転々とする日々。ぐるぐると思索に耽るけど、ご飯を食べると幸せになれる。奇才の新鋭・heisokuが贈るリアル労働グルメ物語!
【最新版Gemini 3に対応!】できるGemini (できるシリーズ)
Geminiを「最強の知的生産パートナー」として使いこなすための、実践的なノウハウを凝縮した一冊です。
基本的な操作方法から、具体的なビジネスシーンでの活用、日々の業務を自動化するGoogle Workspaceとの連携、さらには自分だけのオリジナルAIを作成する方法まで余すところなく解説します。
Rustプログラミング完全ガイド 他言語との比較で違いが分かる!
Rustの各手法や考え方を幅広く解説!
500以上のサンプルを掲載。実行結果も確認。
全24章の包括的なチュートリアル。
ポチらせる文章術
販売サイト・ネット広告・メルマガ・ブログ・ホームページ・SNS…
全WEB媒体で効果バツグン!
カリスマコピーライターが教える「見てもらう」「買ってもらう」「共感してもらう」すべてに効くネット文章術
小型で便利な Type-C アダプター USB C オス - USB3.1 オスアダプター
Type-C端子のマイコンボードをこのアダプタを介して直接Raspberry Piに挿すことができます。ケーブルなしで便利なツールです。
Divoom Ditoo Pro ワイヤレススピーカー
15W高音質重低音/青軸キーボード/Bluetooth5.3/ピクセルアート 専用アプリ/USB接続/microSDカード
電源供給USBケーブル スリム 【5本セット】
USB電源ケーブル 5V DC電源供給ケーブル スリム 【5本セット】 電源供給 バッテリー 修理 自作 DIY 電子工作 (100cm)
|