top of page

Chat GPT はどうやって生まれてきたのか? その11(最終回): Scaling Law と GPT-3

 今やChat GPTについて知らない人はいないんじゃないか?って思えるぐらい有名になりました。しかし、何でこんな物が突然現れたのか不思議に思う方も多いのではないでしょうか?そこで、Chat GPTが登場するまでの様々な技術について、数式は使わずに平易に解説していくシリーズとして「Chat GPT はどうやって生まれてきたのか?」を連載しています。今回はその11回目(最終回)となります。Scaling Law と GPT-3 について説明します。


 

1. Scaling Law

 OpenAIから2020年に以下の論文が発表されました。

 この論文では、Transformer に基づく言語モデルの性能と、計算資源 (C)、データセットのサイズ (D)、モデルパラメータの数 (N)の関係に経験則を見出したことが述べられています。

 図1を見ると、プロット(点)が綺麗に直線上に並んでいます(グラフは両対数グラフであることに注意)。縦軸は Loss であり、値が小さいほど性能が高いため、計算資源 (C)、データセットのサイズ (D)、モデルパラメータの数 (N)を大きくすればするほど性能が向上することを示しています。これ以外にも、以下のことが分かりました。

  • グラフから読み取った係数に基づいて、計算資源の最適な配分方法が計算できる。

  • モデルが大きいほどサンプル効率が上がり、同じ性能に到達するのに必要なステップ数は減少する。

  • 同じ計算量では小さなモデルを収束するまで訓練するより,大きいモデルを収束前に訓練をやめる方が性能が高い。

  • Transformer に比べて LSTM は構造的なボトルネックを抱えるため,コンテキストが長くなると Scaling Law が適用されなくなる。

図1 言語モデルの性能と各変数の関係(論文より引用)

2. GPT-3

 Scaling Law 発表の数か月後、GPT-3 が発表されました。

 Scaling Law により、モデルは大きい方が性能が上がるということが分かりました。また、コストをかけてモデルを訓練した場合に、どの程度の性能になるのかを予測できるようになったため、積極的に投資することが可能になりました。

 その結果、莫大な予算を投入して生まれたのが GPT-3 です。巨大なモデルを大量のデータで訓練しています。

 表1は、GPTシリーズのモデルスペックです。GPT(初代)や GPT-2 と比較すれば如何に巨大か分かると思います。なお、dmodel は単語分散表現の次元数です。

表1 GPTシリーズのモデルスペック

 GPT-3 の基本構成は、Sparse Transformer が導入されたことを除けば、GPT-2 と同じで、大きな変更はありません。

  • Sparse Transformer: 従来の Transformer は、長い文章で self-attention の計算量が急増するため、この部分の計算量を削減して高速化した Transformer 。

 GPT(初代)のときに事前学習とファインチューニングを提唱しました。GPT-2 の実験でファインチューニングなしでもある程度のことができること、モデルを大きくすれば性能が上がることが分かりました。そして、GPT-3 でファインチューニングなしで、様々なタスクで好成績をあげることができました。

 さらに、従来はファインチューニングで使用していたデータを例示することにより、性能が上がることを示しました。図2は、few-shot と言っていくつかの例を提示する例です。他にも提示する例の数によって、one-shot, zero-shot などもあります。なお、例示しているだけで、そのデータで学習している訳ではない点が、ファインチューニングとの違いです。

図2 few-shot の例

 GPT-3 が SoTA を達成したタスクの一部を図3に示します。TriviaQA において、zero-shot では SoTA を達成できていませんが、これでもファインチューニングした T5 よりも好成績でした。なお、GPT-3 には苦手なタスクもあり、すべてが好成績だった訳ではありません。

図3 GPT-3 が SoTA を達成したタスク(一部)

 その他にも、2ケタどうしの足し算や引き算をほぼ正解できました(few-shot)。コンピュータなので計算はできて当然と思うかも知れませんが、GPT-3 は次の単語予測を事前学習しただけなので、計算能力を発揮するのは驚きに値します。

 また、GPT-3 にニュースのタイトルとサブタイトルから本文を作成させて、80人にAIが書いた文章か人間が書いた文章かを判定してもらったところ、正答率は52%に留まりました。ランダムに答えた場合が50%なので、ほぼ見分けがついていないということになります。

 論文には、GPT-3 の性能に関して他にも記述がありますが、ここでは省略します。

 

 そして、2022年11月に GPT-3.5 と Chat GPT が発表されました。GPT-3.5 は GPT-3 をさらに拡張したモデルで、パラメータ数が3550億と言われています。Chat GPT は対話機能を強化したモデルです。

 従来は、ユーザの意図に沿っていなかったり、信頼できない文章を生成したり、偏見が含まれているような文章が生成されたりしていました。これらの問題を RLHF を使って緩和しています。

  • RLHF(Reinforcement Learning from Human Feedback) 人間のフィードバックを基にした強化学習手法です。 人間の期待や目標に合うようにモデルを調整していきます。

 対話機能の強化については、下記の論文に詳細が記述されています。


3. おわりに

 これまで、11回に分けて「Chat GPT はどうやって生まれてきたのか?」をお届けしてきました。これまでの技術の流れを理解して頂けたと思います。

 結局、Chat GPT は、AGI(汎用人口知能)の開発を目標としている OpenAI が作成した、次の単語を予測をする事前学習モデルだったと言えます。モデルと学習データを大きくしていくことで、このような知性が生まれました。モデルサイズを大きくすると、今までできなかったことが、突然できるようになるという「創発」という現象も確認されています。現在では、GPT-4o が発表されていますが、まだ Scaling Law の限界に達したとは言われていません。今後どうなっていくのか楽しみでもあり、恐ろしくもあるところです。

 Chat GPT は非常にお喋りが上手です。しかし、流暢に喋っているからといって、決して文章の内容が正しいとは限りません。「ハルシネーション」と言って、学習したデータからは決して導き出せないことを、堂々と答えてしまうことがあります。Chat GPT の言うことを鵜呑みにしないように注意して利用して下さい。

bottom of page