site_review: 2025-07-22 01:11:16.713225 【技術本】つくりながら学ぶ!LLM自作入門

【技術本】つくりながら学ぶ!LLM自作入門

https://amzn.to/416vzNT


【技術本】つくりながら学ぶ!LLM自作入門


x postへポスト
GPT2相当のLLMをローカルのPC上で動かして検証できる。コードはPythonでPytorch、Tensorflow、Tiktokenなどを使用して実装されている。
コードはJupyter Notebookで提供されるため、Google Colabでも検証可能。LLMは演習ではパラメータ数1億2千万〜3億5千万のモデルを使用する。設定で最大15億パラメータのモデルなどを選択することも可能だが、Google Colabでは演習のモデル以上の規模になると無料枠では動かないので注意。7章の他のLLMを使用してインストラクションチューニングを評価するのもメモリを多く積んだローカルPCの方が良い気もする。Google Colabで動かす場合は、一部packageのインストール(pip install tiktoken)や、フォルダ内のソースコードの関連付けのコード修正(previous_chapters.py, gpt_download.pyなどの実装を参照できるようにする)が必要だったがそれ以外に動作に問題はなかった。

繰り返しの強調になるが、この書籍は何が凄いかというと、LLM-AI構築における以下の一連のほぼ全ての作業を、絵図とPython実装によってわかりやすく解説してくれている点である。
・Transofomer(Multi-head Attention, 層正規化、ドロップアウト、フィードフォワード層、GELU活性化関数)も含めたGPT全体の実装
・事前学習データの準備における実践的なデータ加工方法
・データ入力と事前学習の方法
・学習済みモデルなどの保存や読み込み方法
・ファインチューニングの方法(インストラクションチューニング(汎用的)、分類チューニング(専門的)の2種類)
これらの一連の内容を数式を前面にし過ぎず、絵図や実装コードで内容を説得させようとしてくれている点がわかりやすく素晴らしいと感じた。
記述されている内容やコードは実践的であり、自分独自のモデル構築や、他のオープンソースのモデルにも応用可能だと感じた。

GPT2相当でも、ファインチューニングまで行うことで、分類(スパム文と、スパム文以外の分類)や、会話形式で指示を与えて文書の言い換え、反意語、スペル誤りの修正ができる機能まで実装できる。書籍内の演習では、GPT2モデルでも実用レベルの学習データの準備と学習計算量は個人で行うにはコストが大き過ぎるため、Open-AIが公開しているGPT2の事前学習済みモデルを読み込んで使用している。しかし、本書では前述の通り事前データの準備や入力、学習、ファインチューニングまでの作業方法が記されているので、独自のデータを用意したり、モデルの実装を改造して自分独自のモデルや、最新の動向を踏まえたLLM実装へカスタマイズできる余地が残されている点が、本書の価値の高い部分だと感じた。

なぜ実践演習がGPT2相当で、3や4でないのかと言いたくなる人もいるかもしれないが、3以降になると規模が桁違いに大きくなってしまう。2まではローカルPCで動くが、3以降は動作メモリスペックが一般的なPCでは足りなくなるのが過半数を超えるし、計算量も数百個のGPUクラスタを使わないで、もし単一のGPU(RTX8000相当)だと事前学習だけで数百年かかるレベルの話だということが本書を読めばわかる。さらに詳しい解説も書かれている。

総評として、実践する内容は現状の最新のGPTとバージョンは違うが、基本的な作業内容は踏襲、網羅されており、現状の最先端のLLMがどのような作業を経て構築されているか、シームレスに学ぶことができると感じた。実際にどのような仕組みで動いているか中身に興味がある人に価値が出てくる書籍だと感じた。
広まってほしい素晴らしい書籍です。オススメです。


x postへポスト

SITE_REVIEW オススメ類似レビュー記事

   

【技術本】生成AIアプリケーション開発入門 のレビュー

2024年前後における以下のほぼ最前線の生成AI活用方法を一冊で学べる。・ディープラーニングの技術遍歴・近年のLLM、生... 続きを読む

   

【技術本】Pythonでスラスラわかるベイズ推論「超」入門 のレビュー

ベイズモデルで最低限必要な基礎的な確率分布から解説してくれる書籍。よく利用される確率分布として、ベルヌーイ分布、二項分布... 続きを読む

   

【技術本】ゼロから作るDeepLearning❺ のレビュー

本書では、単純な1次元の正規分布を数式でモデル化して擬似データを生成できることから始め、徐々に複雑さを上げて、最終的に任... 続きを読む

   

【技術本】大規模言語モデル入門 のレビュー

ChatGPTの登場によりさまざまな技術が塗り替えられつつある昨今だが、2023年当時におけるTransformer技術... 続きを読む

   

【技術本】ゼロから作るDeepLearning❹ のレビュー

本書の前半1〜6章は強化学習の基礎(実装あり)を紹介し、後半の7〜9章でディープラーニングの強化学習問題を解くところまで... 続きを読む

   

【技術本】セキュリティエンジニアのための機械学習 のレビュー

以下の各種情報セキュリティに対する機械学習を活用した防御と、攻撃の内容について、コードを踏まえて解説してくれている。・フ... 続きを読む

   

【技術本】実践・時系列解析―統計と機械学習による予測 のレビュー

時系列解析とはなにか。歴史的背景の解説から、データの前処理整形方法、データのシミュレーション、機械学習を想定した前処理(... 続きを読む

   

【技術本】ゼロから作るDeepLearning❸ のレビュー

独自の機械学習用フレームワークをゼロから実装し、最終的にはCNN, RNN(LSTM含む)を構築して機械学習できるまでが... 続きを読む

   

【技術本】Pythonではじめる教師なし学習 のレビュー

教師あり学習と対比し、教師なし学習の利点や特性などを踏まえながら、以下の順で教師なし学習を紹介してくれている。内容は、機... 続きを読む

   

【技術本】詳説DeepLearning のレビュー

本書の肝は、並列反復アルゴリズムを実行できるSparkを活用し、YARNベースのHadoopクラスタ、Mesosベースの... 続きを読む

   

PythonによるAI・機械学習・深層学習アプリのつくり方 のレビュー

機械学習という一見曖昧なものを識別する仕組みも、評価するものが文章であったり画像であったとしても、最終的にデータを数値定... 続きを読む

   

【技術本】ゼロから作るDeepLearning❷―自然言語処理編 のレビュー

ゼロベースから実装(ブラックボックスの機械学習ライブラリ使用ゼロ)してディープラーニングの中身を理解できる著作の第2弾。... 続きを読む

   

【技術本】ゼロから作るDeep_Learning―Pythonで学ぶディープラーニングの理論と実装 のレビュー

人の脳神経回路の仕組みを模したニューラルネットワークをどのように実装して、どのように学習させていくべきかを絵図数式、さら... 続きを読む


  Copyright 2021-2026 REVIEW_SITE ALL RIGHTS RESERVED.
  このサイトについて/お問い合わせ
  プライバシーポリシー
  総合トップページへ