Bonsai-8Bに関するメモ

■ 1. Bonsai-8Bの概要

PrismMLが2026年3月31日にステルスから公開した82億パラメータのLLM

モデルサイズは1.15GBで同サイズの標準16ビットモデルの約14分の1

エッジハードウェア上で8倍高速かつエネルギー効率は4〜5倍優れる

Caltechのリサーチから生まれたスタートアップでKhosla VenturesやCerberusおよびGoogleが出資

■ 2. 1ビット量子化の特徴

全重みが−1または+1の2値のみで表現される

学習後処理ではなくネイティブの1ビット精度でゼロから学習される

埋め込み層・アテンション層・言語モデルヘッドを含む全層が1ビットで構成される

■ 3. 性能と動作速度

ベンチマーク平均スコアは70.5点でフル精度8Bクラスモデルと競争力を持つ

知性密度(intelligence density)はQwen3 8B(0.10/GB)を大幅に上回る1.06/GBを達成

動作速度:

M4 Pro Mac: 毎秒131トークン

RTX 4090: 毎秒368〜440トークン(記載箇所により異なる)

iPhone 17 Pro Max: 毎秒約44トークン

標準的な16ビット8BモデルはiPhoneでは動作しないがBonsai-8BはiPhone上でネイティブ動作が可能

■ 4. 対応プラットフォームとハードウェア要件

必要メモリ: 約1.5GB(モデル本体1GB＋オーバーヘッド)

標準のllama.cppやLM Studioは1ビット重みに未対応のためPrismML提供の専用推論エンジンが必要

Appleデバイス(Mac/iPhone/iPad):

MLXを通じてネイティブ動作

M1以降のMシリーズおよびA18以降のAシリーズチップ対応

統合メモリ8GB以上が最低スペック

PrismMLのカスタムMLXフォークが必要

NVIDIA GPU(Windows/Linux):

llama.cppのCUDA経由でネイティブ動作

CUDA対応GPUが必須でVRAM 2〜4GB程度で動作可能

ただし、標準のllama.cppやLM Studioは1ビット重みに未対応のため、そのままでは動作しない

PrismMLが提供するカスタムフォーク版のllama.cppまたはMLXが必要

CPUのみ:

GPUは必須でなくモダンなCPUで推論可能

AVX2対応CPUで速度が向上

ただし、現時点ではCPUサポートが不完全で公式ベンチマークが存在しない

■ 5. モデルのバリエーションとライセンス

8Bのほか4Bと1.7Bのモデルも提供

GGUF形式とMLX形式で利用可能

Apache 2.0のオープンソースライセンス

■ 6. 用途と限界

リアルタイム会話AI・コード補完・シンプルなエージェントタスクをローカルで処理可能

プライバシー重視のアプリ・オフラインアシスタント・エッジデバイス・ロボティクスへの活用が期待される

多言語対応や複雑な推論が必要なワークロードではより大きなモデルに劣る

/note/tech

Bonsai-8Bに関するメモ

関連: