なぜGoogleの高性能AIモデル『Gemini』は、「GPT-4を超える」と注目されているの!?
AI音痴の魅力ハンター&ライターなまず美紀(みきてぃ)です。
2024年もAIの最先端ニュースを入手&お伝えするべく尽力しますので、暖かく見守っていただけると嬉しいです!
さて、今年初回のテーマは、Google社が2023年12月6日(米国時間)にリリースした、高性能 AI モデル「Gemini(ジェミナイ)」のニュースです!
■Gemini:2024年注目の高性能AIモデルとは!?
私のAIの師匠、システムズナカシマの社員によると、「Geminiはすごいですよ。GPT-4を超える注目度です」とか。
え!?
昨年(2023年)はChatGPT元年とも言われ、GPT-4が「すごい!」と騒がれたばかり。
すでにそれを上回るエースが誕生したということ!?
Google関係者も、その可能性について熱く語っていますね。
いったいGemini は何がすごいのでしょうか。
■Geminiで注目されるマルチモーダル性とは!?
システムズナカシマのM社員にその真実を迫ったところ、どうやら、Gemini の一番の特徴は、マルチモーダル性のようです。
で?
マルチモーダルってなに?
落ち着いて考えていきましょう(自分に言っています!)。
「マルチモーダル=マルチモダリティに対応できる」という意味ですね。
「モダリティ」とは、「情報が表現・伝達される形式」のこと。
モダリティには、下記のようなものがあります。
・テキスト・モダリティ(文字で表現される文献、メッセージ、小説など)
・画像モダリティ(写真、イラスト、図など)
・音声モダリティ(音楽、音声メッセージなど)
・映像モダリティ(動画、連続した静止画など)
Gemini は複数のモダリティに対応できるように設計されていて、テキスト、画像、音声、映像など、異なるモダリティの情報を包括的に理解して処理できます。
つまりGemini は、
マルチ(複数・多数)な モダリティ(形式)を処理できる
という点が「すごい!」のですね。
従来の生成 AI モデル、たとえばGPT-3は、主にテキスト・モダリティを扱うことができました。GPT-3の高性能版であるGPT-4は、画像(写真は図など)を入力すると、テキストで解説することができる点で、「マルチモーダルだ!すごい!」と言われたわけですが、マルチモーダル性としては補完的、限定的でした。
Gemini はより幅広い複数のモダリティに対して、より柔軟でシームレスに対応できます。
たとえば私たち人間は、スピーカーの話を聴きながら、文字で書かれた資料を読み、パワーポイントのグラフを読み取る、というように、複数のモダリティをマルチに処理しているわけですが、Geminiもそれに近い能力を備えているということですね!
■Geminiは性能の高さも桁外れ
それだけを聞くと、「AIもやっと人間に近づいたか」ぐらいに思ってしまいますが、もちろん、大きな勘違い。
Geminiのすごさは、マルチモーダル性だけではありません。非常に高性能であることも特徴で、数学、物理学、歴史、法律、医学、倫理などあらゆる分野で高度な理解力・推論力をもち、各分野の専門家が集結したようなパフォーマンスを示しているそうで…。
こうした情報の処理能力については、GPT-3もGPT-4も、すでに人間の能力を超越しているわけですが、Geminiはこの点でもGPT-4を凌駕すると言われている所以です。
■Geminiはどこで使えるの?
Geminiのすごさがなんとなくわかった今、Geminiはどこで使えるか気になりますよね。
Geminiには「Ultra」「Pro」「Nano」という3つのサイズのモデルがあるそうです(2024年1月現在)。
そのうち、「Gemini Pro」はGoogle Bardに搭載されており、個人ユーザーも無料で利用が可能です(英語版のみ)。
また、小規模の「Gemini Nano」は、GoogleのPixel 8 Proに搭載され、レコーダー(録音)の要約およびスマート返信の機能が追加されるとか。
今後Gemini は、Google検索や Google 広告、 Chrome 、 Duet AI など、その他の Google 製品にも搭載される予定です。
Google 関係者は、上記の動画でも「Geminiはあらゆる分野で、あらゆる人の役に立つ」「その可能性はほとんど無限」と語っていますが、2024年も、AIが私たちの生活をどう変えてくれるのか、楽しみです!
▶︎システムズナカシマでは、AI技術を用いたシステム開発をご提案させていただいております。業務効率化などを検討されたい方は、お気軽にご相談ください。