Ollama でローカル LLM を実行してみた

去年、LM Studio で OpenAI のローカル LLM 「gpt-oss-20b」を使ってみたのですが、今回は Ollama でローカル LLM を実行してみました。
Ollama は、ローカル環境で LLM(LLama、gpt-oss、Gemma、DeepSeek、Qwen等) を実行できるオープンソースツールで API も提供されており、プログラムからも LLM を利用できるようです。
・Ollama – 公式サイト
https://ollama.com/
・参考書籍
Pythonでまなぶ ローカルLLMの訓練と使いこなし – amazon
書籍の執筆時点では、このページ最後で使用している Ollama の UI が実装されていなかったようです。

まだあまり使用していないため、今回はインストールと簡単な質問をするだけの内容になります。
Ollama のダウンロードとインストール
以下のダウンロードページから Ollama のインストーラー「OllamaSetup.exe」をダウンロードし、任意のフォルダへ保存します。
・Ollama のダウンロード
https://ollama.com/download
インストーラー「OllamaSetup.exe」を実行し、インストールを開始します。
セットアップ画面が表示されるので、「Install」ボックスをクリックするとインストールが開始されます。

インストールが終了するまでしばらく待機します。

インストールが完了すると、Ollama の画面が表示されます。
このままでも使用できるのですが、私の環境の場合、Cドライブの空き容量が不足するため、モデルの保存先を変更します。
保存先の変更を設定画面で行うため、左上の赤枠部分をクリックします。

メニューが表示されるので「Settings」をクリックします。

設定画面に切り替わるので、「Model location」でモデルの保存先を変更します。
変更後:E:\Ollama\models
他の項目は、必要に応じて変更してください。

保存先の変更後、赤枠の「←」をクリックし、設定を終了します。
以上で、インストールは終了です。
モデルの変更と LLM への質問
メイン画面のメッセージ欄の右下のコンボボックスでモデルを変更します。
デフォルトでは「gemma3:4b」が表示されていると思いますが、今回は「gpt-oss:20b」を使用してみます。
モデルは、最初の1回目にダウンロードされますが、ディスク容量も消費するため、注意してください。

以下、モデルを「gpt-oss:20b」に変更した状態になります。

メッセージ欄に質問等を入力して送信すると、最初の1回目はモデルがダウンロードされ、ダウンロード後に質問内容の推論が行われます。
今回は、以下の質問をしてみました。
質問:Ollamaについて300文字程度で説明してください。

モデルのダウンロードされるため、待機します。

ダウンロードが終わると、推論が開始されます。

しばらくすると回答が出力されます。今回は 37.5 秒かかりました。

同じ質問をしてみたところ、2 回目は 10 秒程でした。
その時によって時間は、まちまちでした。

以下、GPUの VRAM 使用量です。
推論中は 11 GB弱使われているようでした。


今回は、ここまでとなります。
■ 更新履歴
[2026/01/28]新規投稿

