東京大学の人が翻訳した動画らしいです
生成AIの初学者にはとてもわかりやすい内容だったのでまとめました
https://www.youtube.com/watch?v=KlZ-QmPteqM
■GPTとは
Generative Pre-trained Transformer
生成的事前学習済みトランスフォーマー
• 生成 (Generative): モデルが単に情報を分類・分析するだけでなく、全く新しい独自のテキストをゼロから生成する能力を持つことを意味します。
• 事前訓練 (Pre-trained): モデルが、インターネット上のテキストなど、極めて大量のデータを用いてあらかじめ学習済みであることを示します。これにより、特定のタスクに特化する前の段階で、言語に関する広範な知識とパターンを獲得しています。
• トランスフォーマー (Transformer): 現在のAIブームの火付け役となった、特定のニューラルネットワークアーキテクチャの名称です。原型となるTransformerは、2017年にGoogleによって、ある言語から別の言語へテキストを翻訳するという特定のユースケースのために発明されました。
ニュートラルネットワーク:「例をたくさん見せると、自分でパターンを覚えて答えられるようになる仕組み」
■なぜ流暢な文章が作れる
AIが流暢な長文を生成するプロセスは、一見すると非常に複雑に思えるかもしれないが、「次に来る単語の予測」という作業の繰り返し
GPTは「理解しているように見える」のは、膨大な文章から
「文脈と単語の関係パターン」を学習しているためです。
そのため「次の単語を予測する」という単純な行為が、
最終的には論理的な説明や自然な会話の生成につながります。
1. 初期テキストの入力: ユーザーが入力した文章や質問(プロンプト)をモデルに与えます。
2. 確率分布の予測: モデルは入力されたテキストの文脈を解釈し、次に続く単語の確率分布を計算して出力します。
3. 単語のサンプリング: 出力された確率分布から、ランダムに単語を一つ選択(サンプリング)します。
4. テキストの更新: サンプリングされた単語を、元のテキストの末尾に追加します。
5. プロセスの繰り返し: 更新された新しいテキスト全体をモデルへの次の入力とし、再びステップ2から4を繰り返します。
■簡単な仕組みの流れ
1. トークン化 (Tokenization):
入力テキストをトークンと呼ばれる小さな断片に分割
2. 埋め込み (Embedding):
それぞれをベクトルに変換して意味を表現する
3. 文脈情報の付与 (Contextualization):
Transformerモデルの中核をなす処理ブロックを繰り返し通過することで、文脈情報を獲得する。
◦ アテンションブロック (Attention Block):
他の単語との関連性を結びつける
「文章中のどの単語が、どの単語にとって重要か」を
動的に計算する仕組みで、文脈理解の中心となっている。
◦ 多層パーセプトロン (Feed-Forward Layer):
多層パーセプトロンで、それぞれのベクトルに対していくつもの「質問」を投げかけ、その答えに基づいて値を更新していく
4. 最終予測 (Prediction):
アテンションブロックと多層パーセプトロンを何度も通過し、文脈情報が十分に織り込まれたベクトルのうち、特に最後のトークンに対応するベクトルが最終的な予測に使用されます。このベクトルが特定の演算を施されることで、語彙に含まれる全てのトークンについて、次に来る確率を示した「確率分布」が生成されるのです。
The following two tabs change content below.