/note/tech

「1.58ビットに進化したから8GBで十分ですよ。任せてくださいよ」とBonsaiが言うのでMacBook Neoに...

要約:

■ 1. Ternary Bonsai (1.58ビット) の概要

  • PrismMLが1ビットBonsai 8Bの後継として「Ternary Bonsai」を発表
  • 1.58ビットとはlog₂(3) ≈ 1.585に由来し、ウェイトが{-1, 0, +1}の三値を取る構成
  • 0(何もしない)という選択肢が加わることでスパース性が生まれ、ネットワークの表現力が向上
  • マイクロソフトのBitNetと同様のアプローチに基づく

■ 2. 性能比較

  • メモリ消費:
    • Bonsai 8B (1-bit): 1.15 GB
    • Ternary Bonsai 8B (1.58-bit): 1.75 GB
    • Qwen3 8B (FP16): 16.38 GB
  • ベンチマーク平均スコア:
    • Bonsai 8B (1-bit): 70.5
    • Ternary Bonsai 8B (1.58-bit): 75.5
    • Qwen3 8B (FP16): 78.2
  • 600MB増(53%増)でスコアが5ポイント(7%)向上
  • FP16モデルの約9.4分の1のメモリでほとんどの実用シナリオを網羅
  • MMLU Redux・MuSR・GSM8K・HumanEval+・IFEval・BFCLv3の広範なベンチマークで均等にスコアが向上

■ 3. 動作環境と導入方法

  • MLX形式のみ対応(Apple Siliconネイティブ)
  • HuggingFaceモデルID: prism-ml/Ternary-Bonsai-8B-mlx-2bit
  • 標準のmlx-lmパッケージで動作し、PrismMLのフォーク版ビルドやXcodeは不要
  • 起動コマンド一行で初回実行時にモデルが自動ダウンロードされOpenAI互換APIサーバが起動
  • 8GB MacBook Neoでの動作結果:
    • 生成速度: 19.3 tok/s
    • ピークメモリ: 2.365 GB

■ 4. mazzaineoへの統合

  • mazzaineoのMODEL_REGISTRYに1行追加するのみで統合完了
  • 既存のOpenAI互換バックエンドを流用しポート8082を1-bit Bonsaiと共有
  • UIのモデルセレクタとサブタイトルが自動切り替えに対応

■ 5. 使用感

  • 日本語応答の丁寧さとテキスト接続のスムーズさが1-bit Bonsaiより向上
  • 短い質問への回答では差が少なく、複数ステップの推論やTool Calling連鎖で差が顕著
  • エージェンティックAIとして使用する場面での文脈保持能力が向上
  • 速度は1-bit Bonsai(21.1 tok/s)よりやや劣るが、M4 Proでは82 tok/s出るとPrismMLが発表

■ 6. 8GBマシン向け推奨構成

  • 品質最重視: Ternary Bonsai 8B(1.75GBで75.5点、Tool Calling完璧)
  • 品質重視: Bonsai 8B (1-bit)(1.15GBで70.5点、最小フットプリント)
  • 速度重視: Ollama Qwen3 8B(kv-cache量子化が有効)
  • Vision用途: Qwen 3.5 4B / Gemma 4 E2B(カメラ・スクリーンキャプチャ対応)
  • 軽量会話: Qwen 2.5 3B(最軽量、エージェント不要時)

■ 7. スマートフォンへの展開と今後の展望

  • iOSのメモリ制限により1-bit Bonsai 8Bが実用に至らなかったiPhoneで、1.58-bit版の4B・2Bモデルが選択肢に
  • iPhone用LLMクライアント「Locally AI」ではすでにTernary Bonsai 8Bが配信開始
  • Qwen 3.6も登場し、1-bit・1.58-bit・量子化等による最適化と基盤モデルの進化が並行して進行
  • オープンソースのエージェンティックAI「Agent」が公開
  • mazzaineoのMCPエージェント化を実施済み