「1.58ビットに進化したから8GBで十分ですよ。任せてくださいよ」とBonsaiが言うのでMacBook Neoに...

「1.58ビットに進化したから8GBで十分ですよ。任せてくださいよ」とBonsaiが言うのでMacBook Neoに組み込んでその性能差を体感。iPhoneでも楽々動くしで、ローカルAIが超進化中（CloseBox） 7枚目の写真・画像 | テクノエッジ TechnoEdge

要約:

■ 1. Ternary Bonsai (1.58ビット) の概要

PrismMLが1ビットBonsai 8Bの後継として「Ternary Bonsai」を発表

1.58ビットとはlog₂(3) ≈ 1.585に由来し、ウェイトが{-1, 0, +1}の三値を取る構成

0（何もしない）という選択肢が加わることでスパース性が生まれ、ネットワークの表現力が向上

マイクロソフトのBitNetと同様のアプローチに基づく

■ 2. 性能比較

メモリ消費:

Bonsai 8B (1-bit): 1.15 GB

Ternary Bonsai 8B (1.58-bit): 1.75 GB

Qwen3 8B (FP16): 16.38 GB

ベンチマーク平均スコア:

Bonsai 8B (1-bit): 70.5

Ternary Bonsai 8B (1.58-bit): 75.5

Qwen3 8B (FP16): 78.2

600MB増（53%増）でスコアが5ポイント（7%）向上

FP16モデルの約9.4分の1のメモリでほとんどの実用シナリオを網羅

MMLU Redux・MuSR・GSM8K・HumanEval+・IFEval・BFCLv3の広範なベンチマークで均等にスコアが向上

■ 3. 動作環境と導入方法

MLX形式のみ対応（Apple Siliconネイティブ）

HuggingFaceモデルID: prism-ml/Ternary-Bonsai-8B-mlx-2bit

標準のmlx-lmパッケージで動作し、PrismMLのフォーク版ビルドやXcodeは不要

起動コマンド一行で初回実行時にモデルが自動ダウンロードされOpenAI互換APIサーバが起動

8GB MacBook Neoでの動作結果:

生成速度: 19.3 tok/s

ピークメモリ: 2.365 GB

■ 4. mazzaineoへの統合

mazzaineoのMODEL_REGISTRYに1行追加するのみで統合完了

既存のOpenAI互換バックエンドを流用しポート8082を1-bit Bonsaiと共有

UIのモデルセレクタとサブタイトルが自動切り替えに対応

■ 5. 使用感

日本語応答の丁寧さとテキスト接続のスムーズさが1-bit Bonsaiより向上

短い質問への回答では差が少なく、複数ステップの推論やTool Calling連鎖で差が顕著

エージェンティックAIとして使用する場面での文脈保持能力が向上

速度は1-bit Bonsai（21.1 tok/s）よりやや劣るが、M4 Proでは82 tok/s出るとPrismMLが発表

■ 6. 8GBマシン向け推奨構成

品質最重視: Ternary Bonsai 8B（1.75GBで75.5点、Tool Calling完璧）

品質重視: Bonsai 8B (1-bit)（1.15GBで70.5点、最小フットプリント）

速度重視: Ollama Qwen3 8B（kv-cache量子化が有効）

Vision用途: Qwen 3.5 4B / Gemma 4 E2B（カメラ・スクリーンキャプチャ対応）

軽量会話: Qwen 2.5 3B（最軽量、エージェント不要時）

■ 7. スマートフォンへの展開と今後の展望

iOSのメモリ制限により1-bit Bonsai 8Bが実用に至らなかったiPhoneで、1.58-bit版の4B・2Bモデルが選択肢に

iPhone用LLMクライアント「Locally AI」ではすでにTernary Bonsai 8Bが配信開始

Qwen 3.6も登場し、1-bit・1.58-bit・量子化等による最適化と基盤モデルの進化が並行して進行

オープンソースのエージェンティックAI「Agent」が公開

mazzaineoのMCPエージェント化を実施済み

(2026/04/17)

/note/tech

「1.58ビットに進化したから8GBで十分ですよ。任せてくださいよ」とBonsaiが言うのでMacBook Neoに...

要約: