Ollama でローカル LLM を実行してみた

2026年1月28日

去年、LM Studio で OpenAI のローカル LLM 「gpt-oss-20b」を使ってみたのですが、今回は Ollama でローカル LLM を実行してみました。
Ollama は、ローカル環境で LLM（LLama、gpt-oss、Gemma、DeepSeek、Qwen等）を実行できるオープンソースツールで API も提供されており、プログラムからも LLM を利用できるようです。

・Ollama – 公式サイト
　https://ollama.com/
・参考書籍
　PythonでまなぶローカルLLMの訓練と使いこなし – amazon
　書籍の執筆時点では、このページ最後で使用している Ollama の UI が実装されていなかったようです。

PythonでまなぶローカルLLMの訓練と使いこなし

まだあまり使用していないため、今回はインストールと簡単な質問をするだけの内容になります。

Ollama のダウンロードとインストール

以下のダウンロードページから Ollama のインストーラー「OllamaSetup.exe」をダウンロードし、任意のフォルダへ保存します。

・Ollama のダウンロード
　https://ollama.com/download

インストーラー「OllamaSetup.exe」を実行し、インストールを開始します。
セットアップ画面が表示されるので、「Install」ボックスをクリックするとインストールが開始されます。

Ollama のインストール

インストールが終了するまでしばらく待機します。

インストールが完了するまで待機

インストールが完了すると、Ollama の画面が表示されます。
このままでも使用できるのですが、私の環境の場合、Cドライブの空き容量が不足するため、モデルの保存先を変更します。
保存先の変更を設定画面で行うため、左上の赤枠部分をクリックします。

Ollama インストール完了

メニューが表示されるので「Settings」をクリックします。

メニューの「Settings」をクリック

設定画面に切り替わるので、「Model location」でモデルの保存先を変更します。

　変更後：E:\Ollama\models

他の項目は、必要に応じて変更してください。

モデルの保存先を変更

保存先の変更後、赤枠の「←」をクリックし、設定を終了します。
以上で、インストールは終了です。

モデルの変更と LLM への質問

メイン画面のメッセージ欄の右下のコンボボックスでモデルを変更します。
デフォルトでは「gemma3:4b」が表示されていると思いますが、今回は「gpt-oss:20b」を使用してみます。
モデルは、最初の1回目にダウンロードされますが、ディスク容量も消費するため、注意してください。

モデルを「gpt-oss:20b」に変更

以下、モデルを「gpt-oss:20b」に変更した状態になります。

モデルを「gpt-oss:20b」に変更した状態

メッセージ欄に質問等を入力して送信すると、最初の1回目はモデルがダウンロードされ、ダウンロード後に質問内容の推論が行われます。
今回は、以下の質問をしてみました。
　質問：Ollamaについて300文字程度で説明してください。

最初の質問

モデルのダウンロードされるため、待機します。

モデルのダウンロード

ダウンロードが終わると、推論が開始されます。

推論中

しばらくすると回答が出力されます。今回は 37.5 秒かかりました。

回答が出力された

同じ質問をしてみたところ、2 回目は 10 秒程でした。
その時によって時間は、まちまちでした。

2回目の回答

以下、GPUの VRAM 使用量です。
推論中は 11 GB弱使われているようでした。

質問前のVRAM使用量

推論中のVRAM使用量

今回は、ここまでとなります。

■ 更新履歴

［2026/01/28］新規投稿