GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and ComparedUpdated Mar/12/2024 by

GPT

Generative Pre-trained Transformer

GPT

transformer を使うと、大規模なモデルで大量のデータを学習させると性能が向上し、さらに、その性能向上が頭打ちにならない。自然言語処理の問題について大量のデータを用意するのは難しい(一般には、人力でラベル付けする必要があるため)が、文章に続く次の単語予測であれば自動生成が可能である。まず、次の単語予測で Pre-train (= 事前学習)しておいて、その後、各問題に対して fine-tuning (= 調整するための学習) を行えば非常に少ない訓練(たとえば 3 epocks) で学習できる。

モデルが pre-trained によって自然言語の文法知識を学習していると解釈できる。対象言語の文法を習得した上で、各問題への適応訓練を行うと、訓練が少なくて済む。

GPT が行うのは次単語予測なので、transformer の decorder 部である。したがって、Masked multi-head attention (未来の word は参照できない)を使っている。

「文の最初」と「文の最後」だけではなく、「区切り」を導入した。

GPT-2

GPT では、最終層を問題ごとに取り換えて fine-tuning していたが、大規模な1つのモデル(1.5B parameters)でできる。また、pre-trained によって文法知識だけではなく、Commonsense Reasoning (常識推論)もそれなりに取得できる。 ("The trophy cannot fit to the suitcase because it is too big. What is too big?" に正解できる)

大規模な Web Text データセットを新たに作成して使った。文章の質が重要なので、「Reddit の link つき投稿で 3karma 以上の投稿」(8M links, 40GB)を使った。ただし、GPT-2 のモデルではまだ Web Text に対して underfitting (= モデルの複雑さが足りない)であった。

GPT-3

大規模なモデル(175B parameters, transformer は 96 層。multi-head attention は 128次元 $\times$ 96個。)。大量の学習データ(600GB の資料から生成した 300B tokens)。

pre-trained しておくと、非常に少ない例の fine-tuning で学習できる。これを進めて学習が Few-show, 1-shot, 0-shot と進化した。

0-shot、すなわちfine-tuning(追加学習)なしでで問題を解く。すなわち「自然言語でタスクと例を与え、続きを生成させる」とするだけで、いろいろな問題が解ける。

In Context Learning, meta learning, multi-task learning の流れを背景としているらしい。すなわち、「大規模なデータセットの中には、いろいろな情報は既に入っている。これを学習すると、いろいろな問題を解く手法も学習していることになる」

GPT-3.5

GPT の原論文: Improving Language Understanding by Generative Pre-Training
GPT-2 の原論文: Language Models are Unsupervised Multitask Learners
GPT-2 の実装: github openai/gpt-2
GPT-3 の原論文: Language Models are Few-Shot Learners
GPT-3の技術 (Sparse Transformer) 論文: Generating Long Sequences with Sparse Transformers
GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared

Youtube (日本語)

【深層学習】GPT - 伝説の始まり。事前学習とファインチューニングによるパラダイムシフト【ディープラーニングの世界vol.31】 AIcia Solid Project
【深層学習】GPT-2 - 大規模言語モデルの可能性を見せ、社会もざわつかせたモデルの仕組み【ディープラーニングの世界vol.33】 AIcia Solid Project
【深層学習】GPT-3 ①-1 モデルと Sparse Transformer について【ディープラーニングの世界vol.39】 AIcia Solid Project
【深層学習】GPT-3 ①-2 追加学習なしでタスクに対応する仕組み【ディープラーニングの世界vol.39-2】 AIcia Solid Project
【深層学習】GPT-3 ③ 社会的影響編 - AIを誤用しないために【ディープラーニングの世界vol.41】 AIcia Solid Project
ChatGPTの仕組みと課題について解説！ AGIRobots
【遂にGPT-4が発表】何が凄いのか解説！ AGIRobots
【ChatGPTにできることを正しく理解する①】ChatGPTの技術概説前編人工知能学会(JSAI) 公式チャンネル
「ChatGPTの仕組みと社会へのインパクト」黒橋禎夫　京都大学教授／NII・所長特別補佐国立情報学研究所 - National Institute of Informatics
「ChatGPTとColabの連携: プログラミング教育におけるChatGPTの活用事例」倉光君郎　日本女子大学理学部教授国立情報学研究所 - National Institute Informatics
ChatGPT APIのEmbeddingカスタマイズ入門 G's ACADEMY
OpenAI API無しでLangChainを使う方法を解説！にゃんたのAI実践チャンネル
実際に使ってるChatGPTのプロンプト術を解説してみたにゃんたのAI実践チャンネル
最新研究まとめ！26個のプロンプト原則をまとめて解説してみたにゃんたのAI実践チャンネル
まさかのGPT4超えモデルが登場！Claude3について解説してみたにゃんたのAI実践チャンネル
さらに賢くなる！Claude3におけるプロンプト術を解説してみたにゃんたのAI実践チャンネル

Yoshihisa Nitta

http://nw.tsuda.ac.jp/

GPT

Generative Pre-trained Transformer

GPT

GPT-2

GPT-3

GPT-3.5

関連情報

Youtube (日本語)