■ 1. Ternary Bonsai (1.58ビット) の概要
- PrismMLが1ビットBonsai 8Bの後継として「Ternary Bonsai」を発表
- 1.58ビットとはlog₂(3) ≈ 1.585に由来し、ウェイトが{-1, 0, +1}の三値を取る構成
- 0(何もしない)という選択肢が加わることでスパース性が生まれ、ネットワークの表現力が向上
- マイクロソフトのBitNetと同様のアプローチに基づく
■ 2. 性能比較
- メモリ消費:
- Bonsai 8B (1-bit): 1.15 GB
- Ternary Bonsai 8B (1.58-bit): 1.75 GB
- Qwen3 8B (FP16): 16.38 GB
- ベンチマーク平均スコア:
- Bonsai 8B (1-bit): 70.5
- Ternary Bonsai 8B (1.58-bit): 75.5
- Qwen3 8B (FP16): 78.2
- 600MB増(53%増)でスコアが5ポイント(7%)向上
- FP16モデルの約9.4分の1のメモリでほとんどの実用シナリオを網羅
- MMLU Redux・MuSR・GSM8K・HumanEval+・IFEval・BFCLv3の広範なベンチマークで均等にスコアが向上
■ 3. 動作環境と導入方法
- MLX形式のみ対応(Apple Siliconネイティブ)
- HuggingFaceモデルID:
prism-ml/Ternary-Bonsai-8B-mlx-2bit- 標準の
mlx-lmパッケージで動作し、PrismMLのフォーク版ビルドやXcodeは不要- 起動コマンド一行で初回実行時にモデルが自動ダウンロードされOpenAI互換APIサーバが起動
- 8GB MacBook Neoでの動作結果:
- 生成速度: 19.3 tok/s
- ピークメモリ: 2.365 GB
■ 4. mazzaineoへの統合
- mazzaineoのMODEL_REGISTRYに1行追加するのみで統合完了
- 既存のOpenAI互換バックエンドを流用しポート8082を1-bit Bonsaiと共有
- UIのモデルセレクタとサブタイトルが自動切り替えに対応
■ 5. 使用感
- 日本語応答の丁寧さとテキスト接続のスムーズさが1-bit Bonsaiより向上
- 短い質問への回答では差が少なく、複数ステップの推論やTool Calling連鎖で差が顕著
- エージェンティックAIとして使用する場面での文脈保持能力が向上
- 速度は1-bit Bonsai(21.1 tok/s)よりやや劣るが、M4 Proでは82 tok/s出るとPrismMLが発表
■ 6. 8GBマシン向け推奨構成
- 品質最重視: Ternary Bonsai 8B(1.75GBで75.5点、Tool Calling完璧)
- 品質重視: Bonsai 8B (1-bit)(1.15GBで70.5点、最小フットプリント)
- 速度重視: Ollama Qwen3 8B(kv-cache量子化が有効)
- Vision用途: Qwen 3.5 4B / Gemma 4 E2B(カメラ・スクリーンキャプチャ対応)
- 軽量会話: Qwen 2.5 3B(最軽量、エージェント不要時)
■ 7. スマートフォンへの展開と今後の展望
- iOSのメモリ制限により1-bit Bonsai 8Bが実用に至らなかったiPhoneで、1.58-bit版の4B・2Bモデルが選択肢に
- iPhone用LLMクライアント「Locally AI」ではすでにTernary Bonsai 8Bが配信開始
- Qwen 3.6も登場し、1-bit・1.58-bit・量子化等による最適化と基盤モデルの進化が並行して進行
- オープンソースのエージェンティックAI「Agent」が公開
- mazzaineoのMCPエージェント化を実施済み