AIの世界では、今月はまさに歴史が動いた月。 ChatGPTが画像を見たり、声で喋ったりできる 「マルチモーダル化」が発表された。
これまでは文字を打つのが当たり前だったけど、 これからは写真を見せて相談する なんて使い方が一気に現実味を帯びてきた。
画像生成のStable Diffusionも、 SDXL 1.0の登場から1ヶ月が経ち、 有志によるモデル開発が凄まじい勢いで進んでいる。
実写と見紛うようなクオリティの画像が、 個人のPCから数秒で生み出される光景は、 もはや魔法を見ているような感覚に近い。
Googleも「Gemini」という次世代AIの 開発を進めているという噂が絶えず、 業界全体が嵐の前の静けさというか、 巨大な波が来る直前の高揚感に包まれている。
一方で、Metaの「Llama 2」のような オープンソース勢も着実に力をつけていて、 「特定の企業が独占するのか」 それとも「誰もが自由にAIを飼い慣らすのか」 という分岐点に立っている気がする。
ゆくゆくは、 この「AIが目や耳を持った瞬間」を、 スマホの誕生と同じくらいの転換点として 懐かしく思い出すかもしれない。
身の回りの当たり前が変わっていくというか、変わり目を見たいというか・・・