@ledsun blog

無味の味は佳境に入らざればすなわち知れず

読書記録：「原論文から解き明かす生成AI」

本

原論文から解き明かす生成AI

原論文から解き明かす生成AI

作者:菊田遥平
技術評論社

1. 読書の目的とスタンス

精読ではなく、まずは全体をさらっと把握する
「オタクが推し（論文）を語っている」のを聞く姿勢で「よくわからないことを言っているが情熱は分かる」と受け止める
半年後に読み直したときに自分の理解が進んでいるか比較確認するためのセーブポイント

2. 各章ごとの理解と疑問点

第2章入力データの特徴量化

理解したこと

テキストは色(RGB)のように連続量で扱えない
分布仮説「単語の意味は文脈で決まる」を使って特徴量化する

疑問・保留

サブワードがわかっていない

関連して調べたこと

分布仮説の歴史
- 1950年代言語学
  - Zelling Harris (1954)が提唱
  - J.R.Firth (1957) が You shall know a word by the company it keeps と表現して普及
  - マーチン・ファウラーみたい
- 1965年この章の論文（Contextual correlates of synonymy）で実証的な検証に成功
- 70～80年代心理学で検証実験が流行った
- 90年代統計的言語処理の分野で使われる
この章の論文のルーベンスタイン（rubenstin）はルーベンスタイン距離のルーベンスタイン（Vladimir Levenshtein）とは別人

第3章 Transformer

理解したこと

RNN/CNNより長文を扱える
注意機構がポイント
2017年に機械翻訳用として登場

疑問・保留

注意機構がわかっていない
RNN/CNNがわかっていない
- RNN/CNNが分かってからの方がTransformerを理解しやすそう

第4章 GPT系列

理解したこと

GPT-1：Transformerと分布仮説を組み合わせたら生成AIになった
- Transformerから交差注意を外した
GPT-2：zero shot学習が可能に
- 学習データにタスクを入れると汎用性が出る
GPT-3 (2020)：few shot学習の飛躍
- 学習データの用意が大変
- ChatGPTリリースは2022年11月
GPT-4：マルチモーダル対応

第5章～第6章拡散モデル・テキストと画像の融合

スキップ

第7章スケーリング則

理解したこと

データ量と性能が比例する「スケール則」の存在
GPU性能よりデータ量が大規模化のボトルネックになると予測されている

疑問・保留

次回は Chain of Thought 推論について理解したい

第8章モデル評価

スキップ