投稿者: Kei

 

Two Click Flare Scratch

タイトルは、DJのスクラッチプレイでとてもよくつかわれる技の名前です。
以前の記事で、今から10年以上前に購入したDJ Mixerでスクラッチにトライしたことがありましたが、このときの誤解がとけたため、改めてスクラッチをやってみることにしました。
(もともとDJ MixerはイベントなどでノンストップのBGM再生をするのが目的で、テンポの違う曲をデジタルならではピッチそのままのテンポチェンジをしながらつなぐのに快感を感じて使っていました。)

Kollaboration w/ TAP


その誤解というのは、フェーダカーブをソフトウェアで設定できることを知らなかったことです。(ハードウェアについているものだけと思っていた。)

Serato DJのミキサー設定で、クロスフェーダカーブを一番速くすると、フェーダを少し動かしただけで、すぐにボリュームがMAXになります。
冒頭の図でその違いを表現しました。ONの位置が違うと音の立ち上がりのタイミングが変わるため、リズムが違ってきます。新しいDJ Mixerを買わないとできないと思っていたところ今のものでも十分できるとわかってから、またやる気になりました。あとこの図は、今回2-click flareをやるにあたってまとめたものです。前回なにもわからず、見よう見まねでやったため、今回はきちんとリズムがつくられるタイミングを整理して挑戦しました。
その前に私が思うスクラッチの魅力ですが、ターンテーブルで再生速度を、フェーダで音量をコントールできることから、サンプリング波形再生としては、リアルタイムでなんでもできるということです。本来の波形がなんであれ音を刻んでリズムをつくることはもちろんのこと、上級者になるとピッチすらつくりメロディを奏でたりします。この奥深さに探求心がかきたてられます。
今回はフェーダに焦点を当てていますが、ターンテーブルの操作が難しく、左右の手を動かすタイミングが僅かにづれるだけで、まったく違ったリズムになったり、音がでなくなったりします。感覚的にはバイオリンのような難しさを感じます。
また以前スネアドラムのブラシ奏法を掘り下げたとき、スクラッチのことも頭にありましたが、難易度が高いためスルーしていました。

The Shape of Rhythm

さて本題ですが、スクラッチの動画はYouTubeにたくさんあります。とても参考になるのですが、トリガーのタイミングが理解できなかったため(なぜフェーダのONでもOFFでも音がなるの?などなど)、フェーダの移動を細かく調べました。フェーダに指(爪)がタッチする音や端に当たった音が、実際のリズムと違いますし、位置往復(OFF->ON->OFF)で一音鳴るため、倍のリズムを刻んでいるよう聴こえます。そのため図のような性質を頭に入れながらプレイすると(32分音符/1Grid)、わかりやすく感じました。(神経質すぎ?)
結果、音の出るタイミングというのは、フェーダがONのとき、ONの状態でテーブルのForward->BackおよびBack->Forwardの切り替わりの瞬間ということになります。
2-Click Flareは16分音符分短くして一拍半フレーズにしてつかわれることがよくあります。(<->を削除)
上段の1-Click,2-Click,3-Clickのリズムは

です。
また16分音符分をひとつ分後ろにずらして、頭ふたつ分を通常再生(言葉が正しくなさそう・・手で擦るFowardでないという意味)したものが下段です。(手で擦って普通に再生させようとするとかなり困難なのがわかります)リズムは

です。2-Clickは一拍半が通常だと思うので、そうしました。
頭ふたつは、8分となりたっぷり元の音源をならすことができます。Forword<->Backの切り替えしがなくなるので、1音減るためです。
ここまで、調査結果でした。
これができるかどうかは別ですが、2-Click Flareを挑戦した動画を一応とってみました。

曲は最近カッコいいと思った下記です。

ちょっとテンポがはやすぎた^^;
上達したらまた動画をとるつもりです。

DJのお気に入り動画
「DJ SARA ★ Freestyle Scratch with djay Pro and Reloop Beatpad 2」

彼女の歌うようなスクラッチがとても好きです。

The Distance Between 0 and 1

今回はちょっと長文になります。前回のAIの流れから、マシンと人間と音楽の話です。

この動画は、私が好きなドラマーのJoJo Mayer氏が、電子音楽から新たに派生したジャングルやドラムンベースというジャンルから、ドラマーとしての人生を変える衝撃的な出会いがあったことを、あのプレゼンテーションで有名なTEDで語ったものです。(クール!)
ドラムマシンにプログラムされた人間の能力を超える演奏を彼曰くリバースエンジニアリングし、これを模倣して即興演奏することで、新しいスタイルが確立したことについてデモ演奏を交えて、知的に語られています。本来ドラムマシンは人間の演奏をシミュレートする存在ですが、ドラムマシンの演奏を人間が模倣するということから、リバースエンジニアリングという言葉を使っていると思います。

ドラムンベースは元々好きなジャンルで、彼のバンドNerveでこれをアコースティックドラムでプレイしているのを初めて動画で見た時は、これやりたかったやつだ、と思い一気にファンになりました。

最近、上記動画でドラムンベースをフィンガードラムで懐かしんでプレイしたり、ある本を読んだり、YMO ユキヒロ氏の逝去でマシンフレーズを模倣した動画を作成したことから、いろいろなスイッチが入り、TEDプレゼン動画を題材にブログを書いてみました。

TED動画から引用
「ドラムマシンにプログラムされた作り込まれた演奏と、即興演奏との創造的プロセスにある違いに答えが隠されている。」
「即興演奏では、意思決定が速ければ速いほど楽しく、力がみなぎるように感じる。」
「意思決定プロセスが意識的に処理できないレベル ゾーンに入る。」

ジャングルはプログラミングによるものや、フレーズサンプリングしたものを倍速で再生するものがあり、テンポが非常に速いです。マシンサウンドなので当然ですが、演奏できることを考えていません。
このテンポの曲で、即興性を取り入れてプレイするということは、かなり難易度が高いことはわかります。これがまさにここで言っている意識的に処理できないレベル「ゾーンに入る」ということでしょう。

下記の動画では、マシンフィールを意識したまま、ドラムソロを叩くというすごいプレイがあります。(動画最終部分)

人間的なドラムソロをやる部分もありすが、機械っぽいフレーズを多用しています。後者の方がきっと難しい、というかきついと思います。

TED動画から引用
「デジタル文化のリバースエンジニアリングを続けた結果、「0」と「1」の間の違いや距離に注目するようになりました。おかげで口では説明できない自らの創造性の源と人間の存在の理解に限りなく近づくことができました。ここまでにお話ししたことの意味が皆さんにも伝わるように、今から短い即興演奏をお見せします。」

このように語って最後の演奏に入っていきます。
言葉では十分説明できないから、演奏で説明するぜみたいな、なんともカッコいい・・

実は、JoJo 氏、ユキヒロ氏と幾つか似ている点があると思っています。
マシンフィール以外にも、テクニックについての考え方です。「曲に必要なテクニック」であることです。どちらもドラマーというより、アーティストです。トラディショナルな音楽をベースに置きつつも、新しい音に敏感にであり、それを使った音楽を大胆に実現します。ドラムセットのスタイルがある一時ですが似ていると感じた部分があります。JoJo 氏は、上記動画ではTomがBDの上にセットされる伝統的なスタイルをとっていますが、TomをおかずClosedHHなどの金物をおくスタイルのNerveの動画もたくさん見かけました。またユキヒロ氏も、初期YMOの時代、フロントエンドは全てシンセドラムパッドという構成をとっていたことがあります。BDの上にTomがないセットというのは、ドラマーとしてすごく制約を感じるものです。(ビートマシン化する)逆に言えば、Tomなしセットは、スタイルをがらっと変えられるとも言えます。
あとドラム音色のこだわりが両氏ともすごいです。ユキヒロ氏は電子音やエフェクト音について、クールな音をたくさん作り出しました。JoJo氏のすごいところは、それをアコースティック楽器で実現するところです。サイドSDにリング状のシンバルを重ねたりなど、ほとんどオリジナル楽器です。
BD4分打ちリズムのクラブサウンドではスネアを使い分け、グルーブをだしたりしています。
通常Roland TR-909 BD系の4分ダンスビート曲は、その音色自体が重要なのでアコースティックが入る余地はないのですが、太いアナログベースのNerveの楽曲に、JoJo氏の研究されたプレイが乗ると十分アコースティックでもいけています。これもリバースエンジニアリングの結果として個人的に衝撃的な出来事と感じました。

動画に戻りますが、タイトルの”between 0 and 1″と言っている部分、デジタルかアナログか、と言っていないことが気になりました。先に、意識的に処理できないレベル、について少し触れましたが、処理速度に関して言っているのなら、量子コンピュータを連想させます。ただ単に分解能のことかもしれませんが、それだとゾーンに入る、などという深い意味にならないような気がしたからです。(余談ですがKorgのVolca Drumではフレーズを確率で変化させることができあます。これだけでも即興に近い印象を感じます。ちなみに関係ないですが量子コンピューターは確率を使って計算をします。)

最近ジョージ・ダイソン氏の「アナロジア」という本を読みました。奇しくも帯には「0と1に寄らない計算は人類に何をもたらすか?」「ポストAI時代の予言書」とあります。著者のインタビュー動画がありますので最後に引用しておきます。
私がこれを読んで感じたのは、自然とか人間にもう一度目を向けることの重要性です。技術的にはデジタルよりも高性能なアナログコンピュータについて書かれていますが、(といってもほとんどは自然界の話)これはナチュラルコンピュータと言われるものと同義だと思っています。量子コンピュータもその一種ですが、自然界が行なっている計算の方が人間が作るコンピュータよりはるかに速いということです。(デジタルコンピュータはシリアライズという特徴を持つため)

量子の自然現象としての演算について、下記動画は私の理解を深めてくれました。

【誰でも量子コンピュータ!量子機械学習編】Quantum Computing for You【第3回・9/22実施】
イジングモデルと組合せ最適化問題の対応

過去関連記事)
「量子コンピュータプログラミング」
https://decode.red/ed/archives/1421
「Qiskit」
https://decode.red/blog/202301151549/
「Quantum Computer」
https://decode.red/blog/202301031525/
「Artificial Life」
https://decode.red/net/archives/560
「Cellular Automaton」
https://decode.red/net/archives/547

「アナロジア」から引用
「人間の言語は、独立したジェスチャーの連続から進化したもの、あるいはそれと共進化したもので、ノイズの多い低周波帯域での貧弱な伝送に耐えるように最適化されている。このようは制約を受けない知性の間では、まったく異なる言語が生まれるかもしれない。クジラがコミュニケーションをとっていることは間違いない。しかし彼らはわれわれが言語で考えを伝える時のように、知能を不連続の記号の連なり変換する必要はない。われわれが音楽を演奏するとき、クジラは「やっとわれわれと同じようにコミュニケーションしようとする兆しが見えた!」と思っているかもしれない。」

自然界はもっと高度はコミュニケーション(あえて通信と言った方がテクニカルに感じやすいかも)をしているのでしょう。音楽によるコミュニケーションは即興演奏などで体験できます。言葉より具体的な意思の伝達には不自由かもしれませんが、先にJoJo氏が言ったように言葉では説明できないことも伝えることができます。これは本当に興味深いことです。
むしろ言葉には誤解がつきもののことを考えると、言葉より優れているのかもしれません。音楽や絵画などのアートによる非言語の伝達手段というものを人間がさらに身につけることができれば、相互理解能力が高まり、その結果さまざまな誤解を減らすことができるかもしれませんね。

即興演奏によるコミュニケーションの速度は、現在のデジタルコンピュータでいかにプログラミングしようとも(何台もネットワーク化しても)、人間にはかなわないだろうという感覚があります。コンピュータはバッファリングによる遅延というハンデがあったり、人間の先読みする能力までシミュレーションする必要があります。(ニューラルネットワークアナログチップのようなものが必要)
人間の能力が奏でる音楽を機械で模倣し、またその音楽を人間が模倣して新しい音楽が生み出されました。身体性が音楽に影響を与えてるでしょうし、音楽が身体性にも影響を与えます。(ドラムンベースで先の「曲に必要なテクニック」といわれるものを考えたとき、Push-Pull奏法というものが使われています。コツをつかむのが難しいのですが、片手で高速に連打できます。これをJoJo氏は足でもやっている。)将棋AIが棋士に変化をもたらすように、テクノロジーが進むとともに人間の感性も変化していくことでしょう。そして次の音楽は・・また別のレイヤーでの人間からマシンに対するアプローチだと思っています。つまり行ったりきたりするわけですね。

最後になりますが、おまけとして追記します。
マシンフィールのプレイの難しさを実感した、動画についてです。

マシンビートを模倣したことで新しい奏法に挑戦しました。珍しくコメントをたくさんいただき恐縮です。
今回の話題にもつながるので、この動画に込めた意味も少しお話しします。

動画と撮ろうと思った動機は、もちろん多大な影響を受けたミュージシャンのユキヒロ氏の逝去で、このタイミングに何か爪痕を残したいと思ったからです。選曲したU.Tは、とても興味深い位置付けの曲なので選びました。この曲はライブでは演奏されたことがない曲です。ドラムはもともと8ビートのパターンを、16分音符分ディレイをかけているため、音数が倍になり16ビートのリズムになっています。元が8ビートなのでテンポの速く、ドラムセットで再現するには、かなり悩むパターンです。最終的に、手で16ビートをシングルストロークで叩くのは、きついのでダブルストロークを混ぜました。そうするとBDのシングルストロークに合わせるのが辛くなりますが、この方法にしました。(テクノは修行)
次はイントロですが、ここではマーチングドラムのエッセンスが入っています。JoJo氏がジャングルやドラムンベースを即興でドラムプレイしたいと思うのと同様、このエッセンスをドラムセットでプレイしたい、という思いが長年ありました。(奇しくもJoJo氏のプレイの中にもマーチングフィールがよく見られます。ハイピッチSD上のスティックショットなど)このセットは通常のツインペダルで叩くBDの他に、その左右にBDペダルを置いて音程感のあるBDの演奏ができるセットになっています。YMOの楽曲には、Roland TR-808のBDやTomを使った音程感のあるシーケンスフレーズがよくあります。UTのイントロも同様で、この音はマーチングの音程感のあるBDの音とよく似ているのです。そこで今回これの一部を使ってイントロを再現しました。あとMC部分のクロススティキングですが、これもテナードラム(クイント、クォード)でよく使われる奏法です(太鼓が三つ横に並ぶと使える)。ルックス的にもフロントの4パッドはYMO初期のシンセパッドのオマージュです。シモンズの音は初期にはありませんでしたが、この製品があればきっと使われていたことでしょう。初期の楽曲にもマッチする不可欠の音と思っています。

長くなってしまいましたが、あのとき何を考えていたっけ、というとき思い出せるように、というつもりで書きました。
本来のブログ(Web Log)の役割とはこういうものだと、言い聞かせて。。

【ChatGPTの次はアナログ社会が来る】科学史家ジョージ・ダイソン氏の不思議なポストAIの予言/AIが自然のように成長する/人類の運命とは/難解で不思議な『アナロジア』を刊行した意義

【ChatGPTのペット化】世界的科学史家のジョージ・ダイソン氏/AIは野生化し、アナログの時代が始まる/ChatGPTの出現の希望と課題とは【後編】

Attention Is All You Need

“AI時代の生き方に、音楽は様々なヒントを与えてくれるかもしれない”

このBlogの副題ですが、それゆえAI を取り巻く話題についてこれまでも取り上げてきました。

Generative Adversarial Networks

Prompt Engineering

ChatGPTをはじめとする生成AIについて、今回はその仕組みについて掘り下げてみました。
(仕組みをわかりやすく説明するものでなく、私が学習した備忘録のようになっています。)
タイトルは下記論文のものです。

https://arxiv.org/pdf/1706.03762.pdf

まずは用語の説明です。

GPT:Generative Pre-trained Transformer
Chat GPT :OpenAIが開発した、大規模言語モデル(LLM:Large Language Model)であるGPTを使ったチャットサービス
Transformer :従来から使用されてきたCNN やRNN と違い Attensionと呼ばれる仕組みに基づいたエンコーダデコーダモデル
CNN:Convolutional neural network 畳み込みニューラルネットワークといい画像や動画認識に広く使われているモデル
RNN;Recurrent Neural Network 再帰型ニューラルネットワークといい時系列データ(株価や気温の推移等)の扱いに最適

参考動画
【Transformerの基礎】Multi-Head Attentionの仕組み
https://www.youtube.com/watch?v=XOekdMBhMxU&t=166s

もともとは言語翻訳の分野で研究され、学習するときにどこに注目するか(どのデータに注意するか)といった情報が付加されることによって従来のLSTMなどによる方法より高い性能を上げられるようになりました。
これがTransformerというモデルです。ChatGPTはPre-trained(学習済み)ですので、デコーダのみを使います。

構造について論文から引用

LSTM :(Long Short-Term Memory: 長・短期記憶) ネットワークは、RNN(再帰型 ニューラル ネットワーク) の一種

LSTM の強みは、時系列データの学習や予測(回帰・分類)にあります。
一般的な応用分野としては感情分析、言語モデリング、音声認識、動画解析などがあります。 (https://jp.mathworks.com/discovery/lstm.html より)

Scaled Dot-Product Attention、Multi-Head Attention、QKV
構造について論文から引用

マルチヘッドアテンションについて
https://cvml-expertguide.net/terms/dl/seq2seq-translation/transformer
“Transformerの設計は,マルチヘッドアテンションを主要ブロックとして採用したのが,最大の特徴である.マルチヘッドアテンションは「系列内自己アテンション or 系列間相互アテンション」アテンションの役割を担当する”

参考動画
https://www.youtube.com/watch?v=g5DSLeJozdw&list=PLfZJp4OG6U1Evr74E_k7P8zqb6MX9KKUZ
画像のセルフ(自己)アテンションを例にわかりやすく説明されている。

Query ,Key,Valueの違いについて
https://www.youtube.com/watch?v=50XvMaWhiTY&list=PLfZJp4OG6U1Evr74E_k7P8zqb6MX9KKUZ

V=K=Q=入力X だが これに行列をかけて回してあげる、Q ,Kそれぞれ回転させてから内積をとる、Vも回して出力調整
様々な角度からXの横ベクトルを比較して、どこに注目するかを制御して出力を決定するのが、Multi-Head Attension.

ChatGPTの仕組み
参考動画
https://www.youtube.com/watch?v=om-PZpvnCBM&list=PLfZJp4OG6U1Evr74E_k7P8zqb6MX9KKUZ&index=13&t=132s

仕組みについて理解するのは難しいですが、誤解を恐れずに言うならば、従来のLSTMでなく、TransformerのモデルがたまたまうまくいったためChatGPTのようなものが生まれた、と言えるかもしれません。(必要なのはアテンションだけ。構造に能力が宿るのだろうか・・これがすごく気になります)
ニューラルネットワーク自体、人間の脳の仕組みを模倣したものをコンピュータ上に実装しています。これを使うと画像認識など、データから答えを求めることができてしまいますが、なぜその答えが出たのか、そのプロセスの説明は困難です。Transformerも同じように考えられます。この先、意識は? 感情は? といったもの(モデル?)についても研究が進むのでしょう。 (偶然、感情に適したモデル(構造)ができちゃった、なんてことがあるかも・・)

さて、ここからが本題ですが、楽器などを練習していて思うのが、これってリアルディープラーニングかも、と思うことがあります。(もちろん人間が本家なのでおかしな言い方ですが)
同じフレーズを繰り返し演奏して、少しずつ上達する様子が、AI による学習に似ていると思うことありませんか?(音楽は時系列なのでRNNか)

特に、上記のセルフアテンションの仕組みを知った時、これはドラムプレイに当てはまっているのでは、と思いました。
ドラムセットをプレイするのを見て、よく手足がバラバラに動いていると思われる方は多いです。しかし実際には右手と右足、左手と左足は連動して動いていたりすることがあり、右足に注目して、右手の動きをする場合や、左足をタイムキープの軸にしたるすることがあります。
つまりどこかに注目(アテンション)するわけですが、これを変えると全く別の体の動きとなり、また新たに違うパターンとして練習をし直す必要があることがあるます。
ドラマーにしかわからないかもしれませんが、簡単な8ビートのパターンを叩いている時に、左足を4分で軽く踏んでいるとします。このとき左足を4分の裏で踏むように変えると、一気に叩けているはずの右手、右足、左手がぎこちない動きになります。(Positinal Encodingが影響するか)
筋肉の動きには問題がなくても、神経の働きが学習されていないせいなのではと思っています。

下記投稿の動画のイントロ部分もそうなのですが、Swingということで左足を裏拍で踏んだら一気に難しくなってしまいました。

Swing Vibes

まあ飛躍的な考え方と思われかもしれませんが、脳が手足にどのように指示を出しているのか(先読み、条件反射、・・)、個人的にはとても興味深いテーマです。
AI研究が進む中、音楽が果たす役割は大きいと思います。
先ほどの、意識、感情、に続いて、創造力にもモデルがあるのだろうか。

Swing Vibes

今年も、ドラムマガジン2023誌上ドラム・コンテスト曲にトライしてみました。(Roland TD-17)

https://drumsmagazine.jp/special/contest2023/

今回は好きなタイプの楽曲ということで盛り上がってしまい、欲張っていろいろなことにトライし(てしまい)ました。

一つは、以前からやりたかったチューニングタムです。アコースティックドラムでは古くはペダルがついたチューニングフロアタムなるものがありましたが、普通(?)は片方のスティックや指で、ヘッドを押さえつけたりしながら叩き、ピッチが変化した音をプレイします。今回IoTでよく使うデバイスM5StickCを使い、ピッチを変化させることを試みました。最初はTD-17にダイレクトでBLE接続を試みましたが、つながらずWindows PC 経由でコントールすることにしました。(右手首の角度でハイタムのピッチがかわります)そのため、少しレスポスが遅れるのと解像度が粗いところがあります。また発音中の音が変化しないのはちょっと残念でした。(いい感じに変化させるのは結構難しい・・Rolandさん一緒に開発しませんか?なんちゃって)
もう一つは、愛用のMicrofreakのファームウェアがversion 5になって、サンプルのリバース再生ができるようになったので使ってみました。偶然にも課題曲のイントロを聴いたとき、これしかない、という音が見つかりました。

あとはタイトルがSwing~ということもあり、久しぶりにレギュラー(トラディショナル)グリップで叩いています。レギュラーグリップでたたいてみて一つ発見がありました。エレドラの音が違うのです。メッシュヘッドの瞬発力を今までマッチドグリップが押さえつけていたのがわかります。スティックが弾みやすいため音切れが良い感触がします。(軽やか)また左手のハイタムへの移動がスムースなので最後はスティーブガッドの頭抜き6連符の連打でエキサイトしてしまいました。グリップはプレイスタイルに大いに影響を与えます。しかしこのグリップの弊害もありました。ついついスティックを回したくなりプレイにリスクが増えてしまいました。おまけでマーチングスネアでよくやヘッドを押さえつけるプレイもやりたくなり、エレドラでトライしています。(ダブルストロークの2打目、しかし効果はあまりなし)

以上、考えることがありすぎて、頭の中が大混乱しながら叩くことになりました。(最初は左手にもM5StickCをつけてスネアドラムのピッチも変化させていましたが、レスポンスが遅れることでコントロールが難しいことから断念)

しかしながら、いろいろやりながら、まだまだエレドラの面白い使い方があることがわかりました。これからどんどん追及していきたいと思っています。

Kit59 でハイタムのピッチを変化させる、MIDIメッセージデータ
[0xf0, 0x41, 0x10, 0x00, 0x00, 0x00, 0x4b, 0x12, 0x03,0x75, 0x03, 0x01, 0x00, 0x00, int(pitch/16), pitch%16, chksum, 0xf7]
ToDo ピッチダウンができなかった。

参考)
TD-17 MIDI インプリメンテーション (Version: 2.00) [PDF]
https://www.roland.com/jp/support/by_product/td-17/owners_manuals/7f9e7c7c-f6f1-4b42-8057-c721b104100f/

M5Stickについて
https://decode.red/net/archives/746

Generative Adversarial Networks

生成AIについて下記でも扱いましたが、今回はもっと掘り下げてドラムトラックの生成をやってみました。

Prompt Engineering

メカニズムについてはGenerative Adversarial Networks(GAN:敵対的生成ネットワーク)というものですが、下記でプログラミンコードを走らせていいます。

https://decode.red/ed/archives/1384

上記では、jupyter notebookをつかって一つずつ作成しましたが、このサイトのもとになっている下記サイトでは、大量に生成できるスクリプトが用意されていますのでこれを実行してみました。(Macの場合cudaは使えませんが、Apple Siliconでmps:Metal Performance Shaders指定するとcpuの倍くらいの速度で生成できます)

https://github.com/allenhung1025/LoopTest

デモサイトで音を聴くこともできます。

https://loopgen.github.io/

下記はJupyter notebook(OSCサーバ)とMAX/MSPを使ったリアルタイムクロスフェード再生のデモ動画です。
https://github.com/naotokui/LoopGAN

私も動かしてみようとしたのですが、MaxとJupyter nodebookは両方ともMacで走らす必要があるため環境面で断念しました。
(私のMaxがつかえるMacが古い。Maxパッチを変更してリモートでWindowsとOSC通信まで動きましたが、ファイル共有もする必要があり、また機会があったらトライします)
ということで波形編集ソフトクロスフェードして雰囲気を味わいました。

通常のドラムトラックのクロスフェードとちがって、元のドラムトラックがGANで生成されていると学習したドラムトラックのバリエーションで生成されるので、クロスフェードのつながりがよいように感じます。
モーフィングのようなイメージか。

下記は、実際のパフォーマンス、とてもクール!
“A performance of “Emergent Rhythm” — a realtime generative DJ set performed by Nao Tokui”
https://www.freethink.com/robots-ai/nao-tokui-and-dadabots-want-to-create-new-music

Finger Drumming / SP-808

最近ネットで動画を見ていて、フィンガードラミングというものをやりたくなりました。AKAIのMPCシリーズがこの世界では昔から有名ですが、20年以上前に購入したRoland SP-808(1998年発売)があるのを思いだし、これでできるのかどうか試してみました。

まずデータ保存されているメディアが特殊であるため、ZIP Drive(取り外し式のバードディスクのようなもの)が無事か、そしていくつかあるメディアに何が入っているかを恐る恐る確認しました。
当時同梱されていたデモのデータを編集して、問題なく演奏のためのセットアップできてほっとしました。当時流行っていたJungle Drumming soundがいっぱい入っていて懐かしいです。

このマシンはとてもユニークな機能を多数持っており、これが面白くて買いましたが、一番実用上優れていたのは、長尺のフレーズサンプルを同時にポン出しできることではないでしょうか。そのためZIP Driveになっています。音楽以外にも映像などにセリフをつけるのにも便利でした。実際、ゲームイベントでデモ動画にあわせてライブ演奏をしたこともあります。
昔は個人の機材で仕事をすることを当たり前のようにやってました。会社で購入してもらえないわけではなく、自分がほしい機材で創作をしたいからです。最新のシンセがでるとメンバーの誰かが買って会社に持ってきていました。

さてフィンガードラムの結果ですが、駆動しているトライブの上をぶっ叩くことに抵抗がありますね。ZIP DriveにOSが入っているため、ドライブが破損したらアウトです。楽しいのですがこのようなことはあまりやらないほうがよさそうです。フィンガードラムテクについては、修行がいることがわかりました。

また実際に使っている動画も見つけました。Sketch Showのライブで細野さんが使っています。


52:03あたり

このようにYMO関連の動画をついつい見てしまうのですが、当時を思い出しながら自分のいろいろなスイッチが入っているのを感じる今日この頃です。

YMOの時代の音楽は、右肩上がりの社会が大きく影響していると思います。
もっと具体的に言えば、半導体メモリの容量、CPUのbit数、周波数、これらがダイレクトに影響しています。新しいシンセやサンプラー、エフェクタなどの機材が発売されるたびに、新しい音、聴いたことがない音に出会えました。
語弊があるかもしれませんが、一方向に進化してきた音楽、PCがひととおり音楽を表現するのに十分な性能をみたしたあとは、聴いて驚くような音に出会うことは少なくなりました。それと同時に時代の先端を感じる音楽は少なくなり、これまで古い音楽とされてきたものが逆に新しく感じるようになり一巡しました。音楽を創る人も、聴く人も多様化し、ビジネスモデルも大きく変化しました。

最近、多様性のある社会がさかんに提唱されています。エントロピーが増大するがごとく、時代の流れは制約のない自由の方向に進んで行きます。このブログでも以前、自由がゆえの不自由、不自由がゆえの自由というものを音楽の創作の過程で経験したことをとりあげました。学校生活の校則にたとえていうとと、統一された制服という規則の中で、いかにおしゃれをするか、人と差別化するか、という創造性というものと似ています。私服が校則になると、されらに創造の幅は広がりますが創造性が増すかといえばそれは別で、毎日着る服選びに、すくなくとも制服のときよりはエネルギーをつかうことになります。(スティーブ・ジョブズはそのため毎日黒のタートルとジーンズだった)どちらが良いのかは人によって違いますが、こういう関係にあることをとても興味深く思っています。

音楽の世界は、過去の多くの人が知っているアーテイストのような成功を収めることはかなり難しく、コニュニティーやサロンのような、単位での成功になるのではと思われます。これは社会の単位が小さくなってきている証拠で、これまで大きな枠の中のルールに従っていれば安心だったものが、この枠が細分化、多様化されることで個人が埋もれる可能性が高くなってきました。
多様性の社会では、個人の存在感を高める努力も不可欠になるのではと思っています。

このように音楽を通して社会を見ることを、このブログではよくやっていますが、最近ではなんといっても生成AIの話題でしょう。
私もいろいろ試していますが、今の段階で画像にくらべて音楽のクォリティがかなり低いと感じています。やはり時間軸という次元がひとつ多いので難しいのでしょう。しかしアートも音楽もいくらAIがすごい作品をつくったとしても、人間の趣味が多様化した現在、その一つが与える影響は、少ないでしょう。(一つのコミュニティにすぎない)またすごい作品ができるのならそれはそれで素晴らしいことだと思います。
また脱線続きの投稿になってしましたが、多様な話題がこのブログです。と、いえればかっこいいのですが、ただまとまりがないだけ。

May you rest in peace

YMOメンバーのお二人がつづけてお亡くなりになり、寂しい気持ちとともに当時熱中した記憶とさまざまな感情も思い出されてきました。YouTubeでのYMOに関する過去動画がこれに拍車をかけています。

Yukihiro Takahashi / YMO

Ars longa, vita brevis.

前回投稿から少し落ち着いた今、ちょっとだけ自分にとってどういう存在だったのか、整理してみたくなりました。


(下手なのに、今どうしても弾いた動画をつくってみたかった。。)

何に一番熱中したかと言えば、やはりアナログシンセサイザーでした。当時名古屋の大須やヤマハの店頭にあったことを記憶しています。得体のしれない音ができる装置ということで夢中でいじりました。楽曲よりもそちらの興味が大きかったです。
楽曲を深く掘り下げたのは、ゲーム音楽を作る仕事をしているときで、仲間もみんなYMOフリークであることもあって音作りのときに、YMOの話題でもちきりなりました。教授が最後まで愛用していたシンセ、プロフェットファイブは憧れの楽器で、高価で買えないためその音をSoundCanvasでシミュレートしたりしていました。この時代、彼らの新しい試みが刺激的で、音楽が自由で楽しいものであることを満喫していました。そのため一挙手一投足に反応していた時期もありました。たとえばドビュッシーが好きだといえばそれを聴き、高橋悠治氏と対談したといえば、その人の本を買ったりといった具合です。教授をハブとしていろいろなことに興味をもち、こういった刺激から創作意欲が掻き立てられるという習慣がつきました。それゆえ新しい刺激があるたびに、現在でも自分にしか作れない音楽があると信じ込むような始末です。

技術面では教授のハーモナイゼーションか好きです。あの親しみやすい「戦メリ」のメロディーにも4度下の音が倍音のようにくっついていて、深みを出しています。「邂逅」もそうですが、音色としてハーモニーというのか、聴いたことのない音のイメージを感じさせます。また「千のナイフ」などにある無調的な部分も好きで、こんなカッコイイ聴かせ方があるのか、と驚きました。(この後無調音楽についてのめりこんだのは言うまでもありません)またキーボードプレイ全体についてとても好きで(ライブも)、U.TのMC部分、「高橋さんのドラム、すごいですね」ですが、「坂本さんのシンセパッドもずこいですね」といいたくなります。


(練習不足でスミマセン、パターンの繰り返しがきつい。。40年以上前の楽曲とは思えない新しさ。ライブでは演奏されていない曲だが、どうやった叩こうかと思わせる曲。)

シンセサイザやサンプラーの技術がこれ以上できないことはない、というところまで行き着くと、新しい音に刺激を受けることが少なくなりました。また音楽も多様化して、かつてほど影響力のあるものが出現しにくくなってきたと思います。その中でもまだ新しいものが作れると信じています。教授が晩年レコーダを街に持ち歩ている音をサンプリングしている姿を動画で見ましたが、とても嬉しくなりました。さすが、今も昔も変わっていないと。

音楽にはいろんな楽しみがあります。聴くこと、演奏すること、作ること、学ぶこと、妄想すること、などなど、どれも深く無限に楽しめます。これを通して成長し、そして様々なことに目を向けさせてくれます。YMOのメンバーは若い時期に音楽の面白さについて膨大なインプットを持っていたことがすごいと思います。当時は今ほど簡単に情報を入手することが簡単ではなかったことを考えると、相当精力的だったことが想像できます。彼らを夢中にした音楽もあるわけですから、やはり音楽の力は偉大と言えます。

音楽に夢中になれることは、幸せなことです。また平和な世の中でないと音楽を楽しめません。このことを人一倍形に表していたのは教授かもしれません。

次の世代のために、引き継がないといけないと、あらためて思いました。

最後に、明るくて楽しくて自由な音楽「い・け・な・い ルージュマジック / 忌野清志郎 + 坂本龍一 【))STEREO((】」YouTubeより引用します。

Ars longa, vita brevis.

また衝撃的なニュースが飛び込んできました。教授の訃報です。
1月のユキヒロ氏の訃報から間もないこともありとてもショックです。
音楽に対する実験的な姿勢には、とても影響を受けました。このようなブログを書いているのも元をたどれば教授にいきつきます。

YMO時代のヒット曲も好きですが”B-2 UNIT”,”音楽図鑑”,”未来派野郎”といったソロ作品がとても好きでした。また”戦場のメリークリスマス”のような美しいメロディーも好きですが、シンセ、サンプリングを駆使したノイジーでマッドな教授にはとても刺激を受けました。音に対するあくなき探求には、そのベースには音という本質的にものに対するものへの好奇心、音に対する敬意があるからなのではと思っています。世界の音に対する興味、それは音という自然への興味であり、これが教授の環境問題などの活動に現れている気がします。こういう政治につながる活動は誤解を生みやすいので、表現が非常に難しいと感じたことがあります。(政治活動をする動機というのは人それぞれ違いますが、正反対の意図を持った人が同じ運動をしていることもあるからです。影響が大きい人は本意でない利用をされることもある。)

闘病をしながらの創作活動に、この人だからこそこのような偉業を残せたのだと確信しました。

人間だれしも死はおとずれますが、その人の思い出は残り続けます。タイトルの言葉は、インフォメーションからの引用ですが、今これを痛感しています。

あらゆる栄誉をすべて手にいれたようなアーティストで、これに憧れて関連する様々なことに関心をもつこととなり、そのおかげで充実した音楽ライフを過ごせました。

ご冥福をお祈りいたします。

Ars longa, vita brevis.
「芸術は長く、人生は短し」

4月8日追記

May you rest in peace

Prompt Engineering

生成系AIが最近話題になっていますが、私も下記ブログでいくつか取り上げました。
ChatGPT
https://decode.red/ed/archives/1314
Stable Diffusion
https://decode.red/ed/archives/1335
Text2Music
https://decode.red/ed/archives/1349
これらすべてテキストでAIに対して指示を出して、その結果を得るものです。
“ChatGPT”はテキストを返して会話を、”StableDiffusion”は画像、そして”Text2Music”は音楽を生成します。このようなTextによる対話的な操作のことをプロンプトエンジニアリングといいます。コンピュータを詳しく扱える人ならコマンドラインの入出力をイメージするとわかりやすいでしょう。

下記の一つ目の例では、アーケードゲーム音楽を作るように指示を出し、それにつづいてどんな曲にするのか説明を加えています。
https://google-research.github.io/seanet/musiclm/examples/

また違うサイトですが”Text2Music”ではmubertのサイトをつかって音楽を生成してみました。
https://mubert.com/render


うーん、ちょっとイメージがちがいますが、一応生成しました。

生成系AIでは、入力された画像や音声などに対して、指示を出すこともできます。たとえば~風の音楽にしてとか、鼻歌から伴奏をつくったりとか、できるようです。そのうち自分の歌や演奏に、リアルタイムに伴奏してくれることも可能になるでしょう。

ここで思うことは、これができたとしてどのような未来を想像したらいいのだろうか、ということです。前回の投稿”IOWN / NTT”、ではリアルタイムで遠隔地と人と演奏する話題でした。また最近の画像処理では、自分と違う人の顔であたかも自分が話をしているように見せることもできます。OpenAIのChatGPTで驚いたことの一つに、文章の構成力でしたが、翻訳の精度にも驚かされました。(音声のテキスト化ではWhisperがあります)これらが簡単に扱えようなの世の中になったとき、人類のコミュニケーションの仕方が劇的に変わると思っています。(音楽によるコミュニケーションはさらに高度なものに。あらゆるチームプレイが高度化)

Text2〇〇でつくられる画像や音楽が、人の創造性を超えるとかアーティストの仕事を奪うとか言われることがありますが、私はそれはないと思っています。それができたしてもそこに面白さがないからです。(面白いことは自分がしたいから)また私の専門分野でもありますが、ローコードやノーコードの流れの中、さらにChatGPTによってプログラマの仕事が少なくなるなどとも言われます。しかし少なくならないといけないのではと思っています。

インターネットが普及する前、「ソフトウェアクライシス」という言葉があったのをご存知でしようか。今後このままでは何十万人のソフトウェアエンジニアが足りなくなる、という危機の話です。当時はそれぞれのソフトハウスで独自に開発をしていたため、ソフトウェアの開発効率も悪く、工数がかかっていました。しかしインターネットが普及してオープンソース開発が当たり前になってくると、そのようなことを聞かなくなりました。オープンソースというのは、プログラムの設計図となるソースコードを公開するということです。当時は企業秘密に近いものがあり公開などとんでもない、といった風潮でした。それが今では公開した方がバグの発見確率も高くなったり、プロダクトに参加する人が増えることから、品質もあがるなどのメリットがあります。なによりも大量のコードを再生産できたことで社会のITインフラを支えことにつながりました。これから先さらにITインフラが高度化、複雑化するにあたり、大量のコードが必要になります。(次のクライシスはAIが解決) ITエンジニアの仕事の種類はどんどん変化しますが、これに携わらなければならない人は減らないと思っています。
ここで一つの教訓があります。未来を予測するときに現在の延長で考えるとよみ誤ります。このままでは~になる、という悲観的な予測が世の中にはあふれています。

ITに関しても労働力人口の減少をAI、ロボットがカバーするという考え方と似ていますが、次の社会課題の解決にAIが不可欠になってきたことが、次第に現れるようになってきた気がします。一番深刻な課題という意味では、環境問題や戦争ですが、前者はテクノロジー、後者はコミュニケーションが解決に寄与すると期待しています。

IOWN / NTT

離れた場所で通信を使った音楽のセッションは、古くから多くの人がさまざまのアイディアを試してきました。
まさに夢の技術とされてきたものが、NTTのIOWN(Innovative Optical and Wireless Network)の低遅延通信により実用段階に入ってきました。(動画では東京大阪間往復16ミリ秒(以下ms)という説明)

https://www.rd.ntt/iown/

これについていろいろと推測しながら考えを整理していきたいと思います。

技術の進歩とともに帯域が広くなったことで送れるデータは多くなりましたが、物理現象として今も昔もケーブルを伝わるデータに遅延があるのは同じです。これ以外の遅延の原因は、データ圧縮・解凍によるバッファや、中継器のバッファ、通信を安定化させるためのマージンとしてのバッファが考えられます。(帯域が広くなることによるデータ圧縮の不要、光によるシンプルな中継器、安定したインフラ、これらによって遅延要素は減少)
時間軸で圧縮するようなエンコーダだと演算に必要なある程度幅のあるデータをバッファリングするため、これは実感できるのですが、中継器やインフラについてはあくまで推測です。
動画だと、実験でどのようなインフラを使ったのかわかりませんが、光ケーブルの専用回線ならかなり安定感はあるはずです。(IOWNのWがWirelessなのでこれは遅延要素だと思いますが・・)

物理現象としての遅延は、相対性理論から、最速でも、真空中における光速の値は 299792458 m/s(約30万 km/s)で、これを下回ることはできません。
東京大阪間は直線距離で400km、新幹線のような経路では500kmとなり、

500/300000 = 0.0001666..

往復で約0.33msとなります。
地球一周だと、40075kmで

40075/300000 = 0.1334833..

約133msとなります。
120BPMで16分音符が125msですが、これより少し長いです。
今回16msの遅れということで、波形ソフトで16msずらしたBassDrumとHiHatの音をならしましたが、気にならないレベルでした。



※ジャスト、16ms、30ms、60ms のズレを7回ずつ再生しています。
(どこまで許容できるでしょうか・・楽器によりかなり感じ方が変わりそうです)
さずかにドラムの音の32分音符のズレ(120BPMで62.5ms)は気になりますが、30msくらいまでは問題ないレベルだと思います。
また映像で言えば、60fpsで1フレームが約16msになります。同時の次のフレームには間に合っているということですから全く問題ないです。
ここまで画像や音声のエンコードの時間は入っていませんが、現在のプロセッサで並列処理をしてしまえば極限まで速くできることは想像できます。特に画像は並列処理がしやすいのでいくらでも帯域が許されるかぎり高画質にできるます。

ただ、地球規模では、遅延の少ない演奏は難しいといえます。
しかしモニターするのをエコーバックのみに音声にしてしまえば、133msの遅延は半分になり遅延の気にならない演奏ができそうです。イメージとしてはMIDI音源をながいMIDIケーブルを使って演奏したときの遅れみたいな感じです。聴こえ音が遅れるので演奏する人もそれを計算してはやめに演奏します。このあたりの慣れは脳が補正しています。(ドラムパッドのMIDIアウトでサンプラーを鳴らすときの遅れも同様)
MIDIの転送レートは31.25kbpsでシリアル通信なので、同時に10個の鍵盤を押しても順番に信号が送信されるため同時には届きません。これが帯域が狭いほど遅れる原因になります。帯域と遅延の話は、MIDIに例えるとわかりやすいかもしれません。

31250*(16/1000) = 500

16msで500bitつまり62.5byte。1音につきチャンネル、ノート、ペロシティの3バイトなので、16msで約21 音処理できます。
単純に言えば2人の鍵盤奏者が同時に1つのキーボードを10本の指でノートオンした場合(連弾のイメージ)、最初の音と最後の音では16msずれることになります。

アナログシンセ(CV-Gate)のレスポンスが速く感じるのは、データでなく電圧制御だからでしょう。(ケーブル内を電子が移動するから?押し出す感じ?)

動画で、16msの遅れを3mくらい離れた人に音がとどく時間とありますが、これは厳には音速は15℃で340m/sですので、5.44mになります。

「Sound Lag」

Sound Lag

こちらの投稿で音の遅れについて書きましたが、野外での演奏を考えれば、34mで0.1秒くらい平気なので、気にしなくても良いレベルかもしれませんね。

最近はzoomやteamsなどを使ったオンライン会議が盛んになってきたため、リモートで会話する機会が増えました。会話レベルならいいのですが、まだ音を合わせるほどには至っていません。しかし音楽教室などの一方的な演奏であれば、音質などの面で実用レベルにきています。最近GoogleMeet(遅延は比較的少ないと感じている)で打ち合わせのような音合わせをしましたが、コミュニケーションが問題なくできるレベルでした。PCよりもスマホとそのアプリの方がカメラ・マイク、通信デバイスのバランスが良い(と私は思っている)ため遅延が少ないと感じました。ちなみに遅延は往復で500msくらいでした。
テンポの遅い曲で、ピアノ伴奏+弦楽器だったら、100msくらいでもできる気がしますので、もう一息といった感じでしょうか。。

いずれにしろ、遠隔での演奏がどんどん当たり前になってくると、また新たな音楽の楽しみが増えることは間違いなさそうです。