@ledsun blog

無味の味は佳境に入らざればすなわち知れず

読書記録:「原論文から解き明かす生成AI」

1. 読書の目的とスタンス

  • 精読ではなく、まずは全体をさらっと把握する
  • 「オタクが推し(論文)を語っている」のを聞く姿勢で「よくわからないことを言っているが情熱は分かる」と受け止める
  • 半年後に読み直したときに自分の理解が進んでいるか比較確認するためのセーブポイント

2. 各章ごとの理解と疑問点

第2章 入力データの特徴量化

理解したこと

  • テキストは色(RGB)のように連続量で扱えない
  • 分布仮説「単語の意味は文脈で決まる」を使って特徴量化する

疑問・保留

  • サブワードがわかっていない

関連して調べたこと

  • 分布仮説の歴史
    • 1950年代 言語学
      • Zelling Harris (1954)が提唱
      • J.R.Firth (1957) が You shall know a word by the company it keeps と表現して普及
      • マーチン・ファウラーみたい
    • 1965年 この章の論文(Contextual correlates of synonymy)で実証的な検証に成功
    • 70~80年代 心理学で検証実験が流行った
    • 90年代 統計的言語処理の分野で使われる
  • この章の論文のルーベンスタイン(rubenstin)はルーベンスタイン距離のルーベンスタイン(Vladimir Levenshtein)とは別人

第3章 Transformer

理解したこと

  • RNN/CNNより長文を扱える
  • 注意機構がポイント
  • 2017年に機械翻訳用として登場

疑問・保留

  • 注意機構がわかっていない
  • RNN/CNNがわかっていない
    • RNN/CNNが分かってからの方がTransformerを理解しやすそう

第4章 GPT系列

理解したこと

  • GPT-1:Transformerと分布仮説を組み合わせたら生成AIになった
    • Transformerから交差注意を外した
  • GPT-2:zero shot学習が可能に
    • 学習データにタスクを入れると汎用性が出る
  • GPT-3 (2020):few shot学習の飛躍

    • 学習データの用意が大変
    • ChatGPTリリースは2022年11月
  • GPT-4:マルチモーダル対応

第5章~第6章 拡散モデル・テキストと画像の融合

スキップ

第7章 スケーリング則

理解したこと

  • データ量と性能が比例する「スケール則」の存在
  • GPU性能よりデータ量が大規模化のボトルネックになると予測されている

疑問・保留

  • 次回は Chain of Thought 推論について理解したい

第8章 モデル評価

スキップ