// benchmark report

Local LLM Performance
on CPU-Only VPS

Qwen2.5 Series & Gemma E2B — GGUF / llama-cli

ConoHa VPS RAM: 2 GB CPU: 3 Core Ubuntu CPU-Only / No GPU

01 — Speed Benchmark

Qwen2.5-0.5B-Instruct-GGUF 最小モデル

PROMPT

62.7 t/s

GENERATE

12.2 t/s

Qwen2.5-1.5B-Instruct-GGUF 推奨モデル ★

PROMPT

23.1 t/s

GENERATE

8.0 t/s

Qwen2.5-3B-Instruct-GGUF 最大モデル

PROMPT

6.5 t/s

GENERATE

0.6 t/s

Prompt processing

Token generation

MAX = 62.7 t/s

02 — Qwen2.5 モデル評価

QWEN2.5

0.5B

PROMPT 62.7 t/s

GENERATE 12.2 t/s

SPEED ✅ 最速

QUALITY 🔴 低い

HALLUCINATION 頻発

速度は申し分ないが、「こんにちはは2017年に生まれた」など事実誤認が頻発。実用には不向き。

RECOMMENDED

QWEN2.5

1.5B

PROMPT 23.1 t/s

GENERATE 8.0 t/s

SPEED ✅ 実用的

QUALITY ✅ 良好

HALLUCINATION 少ない

速度・品質ともに実用レベル。簡潔かつ正確な応答を生成。この環境のベストバランス。

QWEN2.5

3B

PROMPT 6.5 t/s

GENERATE 0.6 t/s

SPEED 🔴 実用不可

QUALITY △ 普通

HALLUCINATION 比較的少ない

Generation 0.6 t/s は会話として成立しない速度。2GB RAM / 3コア環境には過大なモデルサイズ。

03 — Qwen 1.5B vs Gemma E2B

指標	Qwen2.5-1.5B	Gemma-4-E2B
PROMPT SPEED	23.1 t/s	24.1 t/s
GENERATE SPEED	8.0 t/s	8.0 t/s
実効パラメータ数	1.5B	〜2B (E2B)
回答品質	良好	良好
Thinking機能	なし	あり
単純タスク効率	◎ 効率的	△ オーバーヘッドあり
複雑な推論	△ 普通	◎ 有利
トークン消費	少ない	多い（思考分）
初回レスポンス	◎ 速い	△ 思考後に出力
総合推奨	会話・QA用途	論理・推論用途

04 — 結論・推奨構成

// FINAL VERDICT

ConoHa VPS 2GB RAM / 3コア / CPU-Only という制約環境において、 Qwen2.5-1.5B-Instruct-GGUF が速度・品質・リソース効率のすべてにおいてベストバランスを示した。

0.5B は Generation 12.2 t/s という最速スコアを記録したが、ハルシネーションが頻発しており実用信頼性を欠く。 3B はメモリとCPUを圧迫し Generation 0.6 t/s ではインタラクティブな会話として成立しない。

Gemma-4-E2B は Qwen 1.5B と同等の速度性能を持ちながら、 Thinking（思考プロセス）機能により論理的推論タスクで優位性を持つ。ただし単純な会話・QAにおいては思考トークンが余分なオーバーヘッドになる。

// QWEN 1.5B を選ぶとき

日常会話・チャットボット
QA・情報検索補助
レイテンシを最小化したい
トークン消費を抑えたい

// GEMMA E2B を選ぶとき

論理推論・多段階問題
コード生成・デバッグ支援
回答精度を優先したい
思考過程の透明性が必要