OpenAI の「gpt-oss-20b」を LM Studio で使ってみた

ローカル環境で動かせる LLM「gpt-oss」が、OpenAI からリリースされていたようなのでローカル PC に LM Studio をインストールして試してみました。
・[OpenAI]gpt-oss が登場 – 2025/8/5
https://openai.com/ja-JP/index/introducing-gpt-oss/
今回、リリースされたものは「gpt-oss-120b」と「gpt-oss-20b」の 2 種類あり、Apache 2.0 ライセンスで使用可能なようです。
「gpt-oss-120b」モデルは、80GB の VRAM が必要で ChatGPT の「o4-mini」に相当し、「gpt-oss-20b」モデルは、16 GB の VRAM で実行でき「o3‑mini」に相当するようです。
私の PC ではスペック的に厳しそうだったのですが、試しに「gpt-oss-20b」の方を使ってみました。結果的には、設定を初期設定からあまり変更せず、簡単な質問等であれば使用できそうでしたが、回答の精度を上げた場合は数分間待つことになるため、私の PC では厳しかったです。
「gpt-oss-20b」は「o3‑mini」相当のようなので、本格的に使用するのであれば「gpt-oss-120b」を使用した方が良いかと思われます。
■ 検証 PC
検証 PC は、6年くらい前の自作 PC のため、あまり参考にならないかと思いますが、以下のスペックになります。最近の PC であれば「gpt-oss-20b」の方は快適に使えるように思います。
OS:Windows 11 Pro
MB:ASUS ROG STRIX B365-F GAMING
CPU: Intel Core i7-8700 3.2GHz 6コア 12スレッド
MEM:CORSAIR DDR4-2666 32GB
GB:NVIDIA Geforce RTX2060 6GB
SSD:WD Black SN7100 1TB(Cドライブ:LM Studio)
SSD:Crucial SATA 512GB(Eドライブ:gpt-oss)
■ 検証手順
以下の手順で検証を行いました。
設定等が良く分かっていないため、とりあえず動くところまでの確認となります。
1. LM Studio のダウンロードとインストール
今回は、LM Studio 上で「gpt-oss-20b」モデルを動作させて検証を行います。
LM Studio は、ローカル環境で大規模言語モデル(LLM)を手軽に利用できるデスクトップアプリケーションになります。
今回、初めて使用したため、設定等が良く分かっていない部分がありますので、ご了承ください。
■ LM Studio のダウンロード
最初に、以下の LM Studio のサイトからインストーラーをダウンロードし、任意の場所へ保存します。今回は「LM-Studio-0.3.25-2-x64.exe」をダウンロードしました。
・LM Studio – Download and run LLMs on your computer
https://lmstudio.ai
■ LM Studio のインストール
ダウンロードしたインストーラーを起動すると、「LM Studio セットアップ」画面が表示されますので、順次設定を行います。設定内容は、適宜、変更してください。
「インストールオプションの選択」でインストールするユーザーを選択し、「次へ」をクリックします。こちらは任意になりますが、今回は「すべてのユーザー用」を選択しました。
次に「インストール先の選択」を行います。今回は、初期フォルダのままとしました。
「インストール」をクリックします。
インストールが開始されますので、完了するまで待機します。
インストールが完了したことを確認し、「完了」をクリックします。
以上で、LM Studio のインストールは完了です。
2. LM Studio の初期設定と「gpt-oss-20b」モデルのダウンロード
■ LM Studio の初期設定
LM Studio が起動するため、初期設定を行います。
※起動しない場合は、デスクトップのショートカット等から起動してください。
以下の画面が表示されますので「Get Started」をクリックします。
・ユーザーレベルの選択
次に LM Studio を使用するユーザーレベルを選択します。
※ユーザーレベルにより、画面の表示項目が増減します。
右に行くほど表示項目が増えます。今回は「Developer」を選択し、全ての項目が表示されるようにします。
・最初のモデルのダウンロード
続いて、最初のモデルのダウンロード画面が表示されます。
今回使用する「gpt-oss-20b」モデルがダウンロードできるのですが、ここではダウンロードせず、後ほどダウンロードします。
チェックボックスの「Enable local LLM service on login」をチェックしておくと、LM Studio がサービスとして登録されるのですが、今回はチェックを外しました。
画面右上の「Skip」をクリックすると、初期設定が完了します。
・LM Studio の起動と追加設定
LM Studio が起動し、以下の画面が表示されば、初期設定は完了です。
追加で LM Studio の設定を変更するため、右下の赤枠の「⚙」をクリックします。
※こちらの設定は任意のため、必要に応じて変更してください。
「Mission Control」画面が表示されますので「App Settings」タブで設定を変更します。
「General」の「Show side button labels」をチェックします。
チェックすると左の橙色の枠部分にボタンのタイトルが表示されます。
下にスクロールすると「Language(言語)」の設定がありますので「日本語 (Beta)」に変更します。
・「ランタイム拡張パック」の更新
次に「Runtime」タブに切り替えて、インストール済みの「ランタイム拡張パック」を更新します。
緑のボタンで「Update」となっているものをクリックし、全てアップデートします。
「ランタイム拡張パック」の更新後、全て「最新バージョンがインストール済み」になっていることを確認します。
・モデルの保存先を変更(任意)
次にモデルの保存先を変更します。
※私の PC の場合、初期設定の Cドライブでは空き容量に余裕がないため、Eドライブに変更します。
左側の「マイモデル」をクリックして表示を切り替え、「モデルディレクトリ」の「…」ボタンのメニューで「変更」をクリックします。
画像はないのですが、モデルのダウンロード先を選択するダイアログが表示されますので、フォルダを選択します。
今回は「E:\LMStudio\models」に変更しました。
こちらは必要に応じて変更してください。
■ 「gpt-oss-20b」モデルのダウンロード
次に「gpt-oss-20b」モデルのダウンロードを行います。
左側の「探索」ボタンをクリックして「Mission Contorol」画面を表示します。
「Model Search」表示に切り替えて、上側の入力欄に「gpt-oss」と入力します。
一覧に「OpenAI’s gpt-oss 20B」が表示されますので選択し、右下の「ダウンロード」をクリックします。
「Downloads」がダイアログが表示されますので、ダウンロードが完了するまで待機します。
ダウンロード完了後、ダイアログを閉じます。
続いて、左側の「マイモデル」をクリックして表示を切り替え、「gpt-oss-20b」モデルの初期パラメータを確認します。モデル一覧に「gpt-oss-20b」モデルが表示されていることを確認し、「…」をクリックします。
「gpt-oss-20b」モデルの「初期パラメータの編集」ダイアログが表示されますので、設定を確認しておきます。確認後、「Close」をクリックしてダイアログを閉じます。
※検証時にパラメータを幾つか変更します。
ようやく動作確認をする準備ができました。
続いて、「gpt-oss-20b」モデルの動作確認を行います。
3. 「gpt-oss-20b」モデルのロードと動作確認
■ 「gpt-oss-20b」モデルのロード
左側の「チャット」をクリックして表示を切り替えます。
画面の上段中央の「モデル選択」欄をクリックしてモデルを選択します。
「モデル一覧」のダイアログが表示されますので、一覧から「OpenAI’s gpt-oss 20B」モデルを選択します。
モデルのロードが開始されますので、完了するまで待機します。
ロード完了後、チャットが使用できるようになりましたので、引き続き動作確認を行います。
■ 検証1(初期設定)
チャット欄に質問を2つ入力して、回答時間を確認しました。
質問1:gpt-ossについて300文字以内で教えてください。
質問2:LM Studioについて300文字以内で教えてください。
動作確認時の動画(音声なし)をYoutube に置いています。
質問1:gpt-ossについて300文字以内で教えてください。
トークン:6.79 トークン/秒・117 トークン・最初のトークンまで0.08秒
GPU 3D:約 35%
専用 GPU メモリ:約 5.2 GB
回答時間が 20 秒程度かかりましたが、待てる時間時間でした。
質問2:LM Studioについて300文字以内で教えてください。
トークン:7.03 トークン/秒・169 トークン・最初のトークンまで1.14秒
GPU 3D:約 35%
専用 GPU メモリ:約 5.2 GB
質問直後に GPU 3D の使用率が 90% くらいまで上がっていますが、その後 35% に落ち着きました。
こちらも、回答時間が 20 秒程度でした。
何度か試してみましたが、おおむね 7トークン/秒 前後で、専用 GUP メモリは、ほぼ使用されてしまっている状態でした。
■ 検証2(設定変更)
質問内容は、検証1と同じなのですが、以下のように設定を変更してみました。
① GPUオフロード:8 → 20
② KVキャッシュをGPUメモリにオフロード:する → しない
③ Froce Model Expert Weights on to CPU:しない → する
設定変更後、検証1と同じく、チャット欄に質問を2つ入力して、回答時間を確認しました。
質問1:gpt-ossについて300文字以内で教えてください。
質問2:LM Studioについて300文字以内で教えてください。
こちらも、動作確認時の動画(音声なし)をYoutube に置いています。
質問1:gpt-ossについて300文字以内で教えてください。
トークン:6.44 トークン/秒・208 トークン・最初のトークンまで1.72秒
GPU 3D:約 50%
専用 GPU メモリ:約 2.4 GB
回答時間が 40 秒程度かかり、検証①の倍くらいになってしまいましたが、20秒程度で終わることもありましたので、参考程度の値としてください。
設定①のGPUオフロードを増やした結果、GPU 3D の使用率が増えたのだと思いますが、②③で 専用 GPU メモリを使用しないようにした結果、遅くなってしまったように思われます。
また、PC のメモリが 検証1:14.7GB → 検証2:18.3GB になり 3.6GB 増えており、専用 GPU メモリにあった分が増加したようです。
質問2:LM Studioについて300文字以内で教えてください。
トークン:6.37 トークン/秒・240 トークン・最初のトークンまで1.63秒
GPU 3D:約 50%
専用 GPU メモリ:約 2.4 GB
こちらも、質問直後に GPU 3D の使用率が 100% くらいまで上がっていますが、その後 50% に落ち着きました。
何度か試してみましたが、おおむね 6.3トークン/秒 前後で、専用 GUP メモリは 2.4 GB 空きがある状態でした。
■ 検証3(Python プログラムの作成依頼)
最後に、以下の内容で Python のプログラムの作成依頼をしてみました。
内容:PythonでBase64エンコード/デコードを行うサンプルプログラムを作成してください。
解説は不要です。
トークン:7.52 トークン/秒・192 トークン・最初のトークンまで0.25秒
コードの内容は、毎回変わるので細かく確認はしませんが、Python のコードも 30秒 程度で出力されました。簡単なコードであれば、使用できそうにも思われます。
以上で、動作確認は終了です。
私の古い PC では「gpt-oss-20b」がとりあえず動作した程度で、詳細な検証ができませんでしたが、「gpt-oss-20b」は「o3‑mini」相当とのことのため、本格的に使用するのであれば「gpt-oss-120b」を使用した方が良いように思われました。
■ 更新履歴
[2025/09/07]新規投稿