1. 読書の目的とスタンス
- 精読ではなく、まずは全体をさらっと把握する
- 「オタクが推し(論文)を語っている」のを聞く姿勢で「よくわからないことを言っているが情熱は分かる」と受け止める
- 半年後に読み直したときに自分の理解が進んでいるか比較確認するためのセーブポイント
2. 各章ごとの理解と疑問点
第2章 入力データの特徴量化
理解したこと
- テキストは色(RGB)のように連続量で扱えない
- 分布仮説「単語の意味は文脈で決まる」を使って特徴量化する
疑問・保留
- サブワードがわかっていない
関連して調べたこと
- 分布仮説の歴史
- 1950年代 言語学
- Zelling Harris (1954)が提唱
- J.R.Firth (1957) が
You shall know a word by the company it keepsと表現して普及 - マーチン・ファウラーみたい
- 1965年 この章の論文(Contextual correlates of synonymy)で実証的な検証に成功
- 70~80年代 心理学で検証実験が流行った
- 90年代 統計的言語処理の分野で使われる
- 1950年代 言語学
- この章の論文のルーベンスタイン(rubenstin)はルーベンスタイン距離のルーベンスタイン(Vladimir Levenshtein)とは別人
第3章 Transformer
理解したこと
- RNN/CNNより長文を扱える
- 注意機構がポイント
- 2017年に機械翻訳用として登場
疑問・保留
- 注意機構がわかっていない
- RNN/CNNがわかっていない
- RNN/CNNが分かってからの方がTransformerを理解しやすそう
第4章 GPT系列
理解したこと
- GPT-1:Transformerと分布仮説を組み合わせたら生成AIになった
- Transformerから交差注意を外した
- GPT-2:zero shot学習が可能に
- 学習データにタスクを入れると汎用性が出る
GPT-3 (2020):few shot学習の飛躍
- 学習データの用意が大変
- ChatGPTリリースは2022年11月
GPT-4:マルチモーダル対応
第5章~第6章 拡散モデル・テキストと画像の融合
スキップ
第7章 スケーリング則
理解したこと
疑問・保留
- 次回は Chain of Thought 推論について理解したい
第8章 モデル評価
スキップ
