スマートフォン・タブレットからインターネットサーバーオペレーション

APPW.jp
 
// benchmark report

Local LLM Performance
on CPU-Only VPS

Qwen2.5 Series & Gemma E2B — GGUF / llama-cli
ConoHa VPS RAM: 2 GB CPU: 3 Core Ubuntu CPU-Only / No GPU

01 — Speed Benchmark
Qwen2.5-0.5B-Instruct-GGUF 最小モデル
PROMPT
62.7 t/s
GENERATE
12.2 t/s
Qwen2.5-1.5B-Instruct-GGUF 推奨モデル ★
PROMPT
23.1 t/s
GENERATE
8.0 t/s
Qwen2.5-3B-Instruct-GGUF 最大モデル
PROMPT
6.5 t/s
GENERATE
0.6 t/s
Prompt processing
Token generation
MAX = 62.7 t/s
02 — Qwen2.5 モデル評価
QWEN2.5
0.5B
PROMPT 62.7 t/s
GENERATE 12.2 t/s
SPEED ✅ 最速
QUALITY 🔴 低い
HALLUCINATION 頻発
速度は申し分ないが、「こんにちはは2017年に生まれた」など事実誤認が頻発。実用には不向き。
RECOMMENDED
QWEN2.5
1.5B
PROMPT 23.1 t/s
GENERATE 8.0 t/s
SPEED ✅ 実用的
QUALITY ✅ 良好
HALLUCINATION 少ない
速度・品質ともに実用レベル。簡潔かつ正確な応答を生成。この環境のベストバランス。
QWEN2.5
3B
PROMPT 6.5 t/s
GENERATE 0.6 t/s
SPEED 🔴 実用不可
QUALITY △ 普通
HALLUCINATION 比較的少ない
Generation 0.6 t/s は会話として成立しない速度。2GB RAM / 3コア環境には過大なモデルサイズ。
03 — Qwen 1.5B vs Gemma E2B
指標 Qwen2.5-1.5B Gemma-4-E2B
PROMPT SPEED 23.1 t/s 24.1 t/s
GENERATE SPEED 8.0 t/s 8.0 t/s
実効パラメータ数 1.5B 〜2B (E2B)
回答品質 良好 良好
Thinking機能 なし あり
単純タスク効率 ◎ 効率的 △ オーバーヘッドあり
複雑な推論 △ 普通 ◎ 有利
トークン消費 少ない 多い(思考分)
初回レスポンス ◎ 速い △ 思考後に出力
総合推奨 会話・QA用途 論理・推論用途
04 — 結論・推奨構成
// FINAL VERDICT

ConoHa VPS 2GB RAM / 3コア / CPU-Only という制約環境において、 Qwen2.5-1.5B-Instruct-GGUF が 速度・品質・リソース効率のすべてにおいてベストバランスを示した。

0.5B は Generation 12.2 t/s という最速スコアを記録したが、 ハルシネーションが頻発しており実用信頼性を欠く。 3B はメモリとCPUを圧迫し Generation 0.6 t/s では インタラクティブな会話として成立しない。

Gemma-4-E2B は Qwen 1.5B と同等の速度性能を持ちながら、 Thinking(思考プロセス)機能により論理的推論タスクで優位性を持つ。 ただし単純な会話・QAにおいては思考トークンが余分なオーバーヘッドになる。

// QWEN 1.5B を選ぶとき
  • 日常会話・チャットボット
  • QA・情報検索補助
  • レイテンシを最小化したい
  • トークン消費を抑えたい
// GEMMA E2B を選ぶとき
  • 論理推論・多段階問題
  • コード生成・デバッグ支援
  • 回答精度を優先したい
  • 思考過程の透明性が必要

『LLM Benchmark Report — ConoHa VPS 2GB/3core』を公開しました。