Googleのジェミニモデルとその他のAI開発について知っておくべきすべて
AIの世界では、ニュースは時には遅く、時には一度にやってきます。ここ数日で、Googleのジェミニに関する驚くべき新たな情報がリークされました。ちょうど今日、MetaのCode Llamaがリリースされ、それ以前には彼らの印象的な多言語対応のM4Tモデルもありました。そして最後になりますが、この88ページのAI意識レポートもあります。そう、私はそれを全部読みました。それは興味深いもので、最後に取り上げます。しかし、まずはThe InformationとThe New York Timesの2つの主要な有料記事から始めましょう。それらから合計9つの新たな情報が明らかになったので、早速見ていきましょう。
🚀 ジェミニ:オールインワンモデル
ちなみに、タイムラインの感覚をお伝えするために、Googleの新しく統合されたAI SWATチームは大規模な秋のローンチに向けて準備をしています。私が記事から得た要点は、ジェミニがオールインワンモデルになるということです。Mid-JourneyやStable Diffusionとの競合になることを知っていましたか?Mid-Journeyにはフルタイムのスタッフが11人しかいないため、GoogleのジェミニがMid-Journeyバージョン5を上回る可能性があるというのは十分に考えられます。
次に、テキストの説明だけでグラフィックスを作成したり、テキストや音声コマンドだけで制御ソフトウェアを使用したりすることができるかもしれません。これらの次の2つは推測ですので、リークのリストには含めません。以前のビデオで既に取り上げたように、ジェミニはYouTubeの動画のトランスクリプトで訓練されているということで、ビデオとオーディオをジェミニに統合することで、メカニックがビデオに基づいて車の修理の問題を診断するのに役立つかもしれず、ユーザーが見たいと思う内容の詳細なテキストやビデオを生成することで、Runway MLに対抗する可能性があると言われています。だからこそ、私はそれをオールインワンモデルと考え始めている理由がわかるでしょう。
もう1つのリーク情報は、Googleの共同創設者であるセルゲイ・ブリンがGoogleのジェミニの最前線で働いているということです。そして最後に、この記事から興味深い情報を見つけました。Googleの弁護士たちは訓練を詳細に評価し、天文学や生物学などの科目に関する質問にモデルが答えるのを助けた教科書からの訓練データを削除するよう研究者に指示しました。重要な教科書のデータを削除する前に、彼らはおそらくジェミニをプライベートでベンチマークテストしたのではないかと思います。
🤖 AIの進展
しかし、それだけでは十分ではない場合、人生のアドバイスも受け取る準備をしてください。私の考えでは、GoogleはInflections Piと直接的に市場シェアを競いたいと考えているのではないでしょうか。科学的な、創造的な、または専門的な文章を望む場合はどうでしょうか?そうです、それにも取り組んでいます。実際、GoogleがThe New York Timesに提案しているGenesisというソフトウェアがあります。これはニュース記事を生成したり、書き直したり、見出しを提案したりすることができます。しかし、Google DeepMindが取り組んでいるこの機能には、議論の批評を起草し、クイズや単語、数字のパズルを生成する能力があります。
この時点では、Googleジェミニが何ができないかを尋ねる方が簡単です。そして、これはジェミニではありませんが、Google DeepMindはAIを使用して次世代の半導体の設計に取り組んでいます。しかし、秋が遠いように感じる場合は、MetaからCode Llamaが登場した今日を考えてみてください。私は過去2時間の大半を47ページの論文を読むのに費やしましたし、画面上でCode Llamaを見ることもできます。ハイライトの一部には、Code Llamaモデルが最大10万トークンのコンテキストで安定した生成を提供するという点があります。明らかに、これはより長いプログラムの生成や、コードベースからモデルにより関連性のあるコンテキストを提供するためのものです。
Code Llamaには3つのバージョンがあります。Code Llama、自然言語の指示をより良く理解できるCode Llama Instruct、そしてPythonにおいてより優れたCode Llama Pythonです。商業利用が可能であり、いくつかのバージョンはGPT-3.5と同等の人間評価を持っています。1つのパスでの最高スコアは53.7%で、これは51と同じくらいの範囲に入ります。私は実際に51についての完全なビデオを作成していますので、ぜひご覧ください。ただし、50.6%のスコアであり、パラメータ数は13億で25倍小さいです。
興味深いことに、Code Llamaの論文は2時間前に公開され、F1について直接言及しており、それは同様の精神に従っていると述べていますが、違いはF1がクローズドソースであるということです。
🌐 シームレスなM4T
数日前、MetaはシームレスなM4Tをリリースしましたが、これは多言語翻訳において驚くべきものです。音声からテキスト、音声から音声、テキストからテキストなどが可能です。ほぼ100の言語に対する音声認識があり、36の言語に出力することができます。しかし、特に興味深い機能が1つあります。それはコードスイッチングです。コードスイッチングは、多言語を話す人が話している間に言語を切り替えることです。私たちのモデル、シームレスなM4は、多言語を混在させた文の中で複数の言語を自動的に認識し、翻訳します。これは私にとって非常に興奮する機能です。私は父と話すときにヒンディー語からデル語に切り替えることがよくあります。以下の例を見て、言語が変わることに注目してください。
🧠 AI意識レポート
最後に、88ページのAI意識レポートについてお話しましょう。このレポートの共著者の1人は、ツーリング賞受賞者のYoshua Benjoです。それは密度があり、かなり技術的な内容ですが、読む価値があります。私たちの分析によれば、現在のAIシステムは意識的ではないということですが、これらの指標を満たすAIシステムを構築するための明確な技術的な障壁は存在しないとも示唆しています。これらはIND指標と呼ばれ、レポートの中でそれぞれ数ページにわたって説明されています。それぞれの指標は意識のある理論に基づいています。
論文では、各理論に基づいて指標を示しています。たとえば、再帰処理理論が正確である場合、意識的なものとされる2つの指標があります。それぞれの理論に対して類推を行っています。