Ollama でローカル LLM を実行してみた

去年、LM Studio で OpenAI のローカル LLM 「gpt-oss-20b」を使ってみたのですが、今回は Ollama でローカル LLM を実行してみました。
Ollama は、ローカル環境で LLM(LLama、gpt-oss、Gemma、DeepSeek、Qwen等) を実行できるオープンソースツールで API も提供されており、プログラムからも LLM を利用できるようです。

・Ollama – 公式サイト
 https://ollama.com/
・参考書籍
 Pythonでまなぶ ローカルLLMの訓練と使いこなし – amazon
 書籍の執筆時点では、このページ最後で使用している Ollama の UI が実装されていなかったようです。

Pythonでまなぶ ローカルLLMの訓練と使いこなし
Pythonでまなぶ ローカルLLMの訓練と使いこなし

まだあまり使用していないため、今回はインストールと簡単な質問をするだけの内容になります。


Ollama のダウンロードとインストール

以下のダウンロードページから Ollama のインストーラー「OllamaSetup.exe」をダウンロードし、任意のフォルダへ保存します。

・Ollama のダウンロード
 https://ollama.com/download

インストーラー「OllamaSetup.exe」を実行し、インストールを開始します。
セットアップ画面が表示されるので、「Install」ボックスをクリックするとインストールが開始されます。

Ollama のインストール
Ollama のインストール

インストールが終了するまでしばらく待機します。

インストールが完了するまで待機
インストールが完了するまで待機

インストールが完了すると、Ollama の画面が表示されます。
このままでも使用できるのですが、私の環境の場合、Cドライブの空き容量が不足するため、モデルの保存先を変更します。
保存先の変更を設定画面で行うため、左上の赤枠部分をクリックします。

Ollama インストール完了
Ollama インストール完了

メニューが表示されるので「Settings」をクリックします。

メニューの「Settings」をクリック
メニューの「Settings」をクリック

設定画面に切り替わるので、「Model location」でモデルの保存先を変更します。

 変更後:E:\Ollama\models

他の項目は、必要に応じて変更してください。

モデルの保存先を変更
モデルの保存先を変更

保存先の変更後、赤枠の「←」をクリックし、設定を終了します。
以上で、インストールは終了です。


モデルの変更と LLM への質問

メイン画面のメッセージ欄の右下のコンボボックスでモデルを変更します。
デフォルトでは「gemma3:4b」が表示されていると思いますが、今回は「gpt-oss:20b」を使用してみます。
モデルは、最初の1回目にダウンロードされますが、ディスク容量も消費するため、注意してください。

モデルを「gpt-oss:20b」に変更
モデルを「gpt-oss:20b」に変更

以下、モデルを「gpt-oss:20b」に変更した状態になります。

モデルを「gpt-oss:20b」に変更した状態
モデルを「gpt-oss:20b」に変更した状態

メッセージ欄に質問等を入力して送信すると、最初の1回目はモデルがダウンロードされ、ダウンロード後に質問内容の推論が行われます。
今回は、以下の質問をしてみました。
 質問:Ollamaについて300文字程度で説明してください。

最初の質問
最初の質問

モデルのダウンロードされるため、待機します。

モデルのダウンロード
モデルのダウンロード

ダウンロードが終わると、推論が開始されます。

推論中
推論中

しばらくすると回答が出力されます。今回は 37.5 秒かかりました。

回答が出力された
回答が出力された

同じ質問をしてみたところ、2 回目は 10 秒程でした。
その時によって時間は、まちまちでした。

2回目の回答
2回目の回答

以下、GPUの VRAM 使用量です。
推論中は 11 GB弱使われているようでした。

質問前のVRAM使用量
質問前のVRAM使用量
推論中のVRAM使用量
推論中のVRAM使用量

今回は、ここまでとなります。


■ 更新履歴

[2026/01/28]新規投稿