Prompt Engineering

生成系AIが最近話題になっていますが、私も下記ブログでいくつか取り上げました。
ChatGPT
https://decode.red/ed/archives/1314
Stable Diffusion
https://decode.red/ed/archives/1335
Text2Music
https://decode.red/ed/archives/1349
これらすべてテキストでAIに対して指示を出して、その結果を得るものです。
“ChatGPT”はテキストを返して会話を、”StableDiffusion”は画像、そして”Text2Music”は音楽を生成します。このようなTextによる対話的な操作のことをプロンプトエンジニアリングといいます。コンピュータを詳しく扱える人ならコマンドラインの入出力をイメージするとわかりやすいでしょう。

下記の一つ目の例では、アーケードゲーム音楽を作るように指示を出し、それにつづいてどんな曲にするのか説明を加えています。
https://google-research.github.io/seanet/musiclm/examples/

また違うサイトですが”Text2Music”ではmubertのサイトをつかって音楽を生成してみました。
https://mubert.com/render


うーん、ちょっとイメージがちがいますが、一応生成しました。

生成系AIでは、入力された画像や音声などに対して、指示を出すこともできます。たとえば~風の音楽にしてとか、鼻歌から伴奏をつくったりとか、できるようです。そのうち自分の歌や演奏に、リアルタイムに伴奏してくれることも可能になるでしょう。

ここで思うことは、これができたとしてどのような未来を想像したらいいのだろうか、ということです。前回の投稿”IOWN / NTT”、ではリアルタイムで遠隔地と人と演奏する話題でした。また最近の画像処理では、自分と違う人の顔であたかも自分が話をしているように見せることもできます。OpenAIのChatGPTで驚いたことの一つに、文章の構成力でしたが、翻訳の精度にも驚かされました。(音声のテキスト化ではWhisperがあります)これらが簡単に扱えようなの世の中になったとき、人類のコミュニケーションの仕方が劇的に変わると思っています。(音楽によるコミュニケーションはさらに高度なものに。あらゆるチームプレイが高度化)

Text2〇〇でつくられる画像や音楽が、人の創造性を超えるとかアーティストの仕事を奪うとか言われることがありますが、私はそれはないと思っています。それができたしてもそこに面白さがないからです。(面白いことは自分がしたいから)また私の専門分野でもありますが、ローコードやノーコードの流れの中、さらにChatGPTによってプログラマの仕事が少なくなるなどとも言われます。しかし少なくならないといけないのではと思っています。

インターネットが普及する前、「ソフトウェアクライシス」という言葉があったのをご存知でしようか。今後このままでは何十万人のソフトウェアエンジニアが足りなくなる、という危機の話です。当時はそれぞれのソフトハウスで独自に開発をしていたため、ソフトウェアの開発効率も悪く、工数がかかっていました。しかしインターネットが普及してオープンソース開発が当たり前になってくると、そのようなことを聞かなくなりました。オープンソースというのは、プログラムの設計図となるソースコードを公開するということです。当時は企業秘密に近いものがあり公開などとんでもない、といった風潮でした。それが今では公開した方がバグの発見確率も高くなったり、プロダクトに参加する人が増えることから、品質もあがるなどのメリットがあります。なによりも大量のコードを再生産できたことで社会のITインフラを支えことにつながりました。これから先さらにITインフラが高度化、複雑化するにあたり、大量のコードが必要になります。(次のクライシスはAIが解決) ITエンジニアの仕事の種類はどんどん変化しますが、これに携わらなければならない人は減らないと思っています。
ここで一つの教訓があります。未来を予測するときに現在の延長で考えるとよみ誤ります。このままでは~になる、という悲観的な予測が世の中にはあふれています。

ITに関しても労働力人口の減少をAI、ロボットがカバーするという考え方と似ていますが、次の社会課題の解決にAIが不可欠になってきたことが、次第に現れるようになってきた気がします。一番深刻な課題という意味では、環境問題や戦争ですが、前者はテクノロジー、後者はコミュニケーションが解決に寄与すると期待しています。




Comments are Closed