■ 1. Bonsai-8Bの概要
- PrismMLが2026年3月31日にステルスから公開した82億パラメータのLLM
- モデルサイズは1.15GBで同サイズの標準16ビットモデルの約14分の1
- エッジハードウェア上で8倍高速かつエネルギー効率は4〜5倍優れる
- Caltechのリサーチから生まれたスタートアップでKhosla VenturesやCerberusおよびGoogleが出資
■ 2. 1ビット量子化の特徴
- 全重みが−1または+1の2値のみで表現される
- 学習後処理ではなくネイティブの1ビット精度でゼロから学習される
- 埋め込み層・アテンション層・言語モデルヘッドを含む全層が1ビットで構成される
■ 3. 性能と動作速度
- ベンチマーク平均スコアは70.5点でフル精度8Bクラスモデルと競争力を持つ
- 知性密度(intelligence density)はQwen3 8B(0.10/GB)を大幅に上回る1.06/GBを達成
- 動作速度:
- M4 Pro Mac: 毎秒131トークン
- RTX 4090: 毎秒368〜440トークン(記載箇所により異なる)
- iPhone 17 Pro Max: 毎秒約44トークン
- 標準的な16ビット8BモデルはiPhoneでは動作しないがBonsai-8BはiPhone上でネイティブ動作が可能
■ 4. 対応プラットフォームとハードウェア要件
- 必要メモリ: 約1.5GB(モデル本体1GB+オーバーヘッド)
- 標準のllama.cppやLM Studioは1ビット重みに未対応のためPrismML提供の専用推論エンジンが必要
- Appleデバイス(Mac/iPhone/iPad):
- MLXを通じてネイティブ動作
- M1以降のMシリーズおよびA18以降のAシリーズチップ対応
- 統合メモリ8GB以上が最低スペック
- PrismMLのカスタムMLXフォークが必要
- NVIDIA GPU(Windows/Linux):
- llama.cppのCUDA経由でネイティブ動作
- CUDA対応GPUが必須でVRAM 2〜4GB程度で動作可能
- ただし、標準のllama.cppやLM Studioは1ビット重みに未対応のため、そのままでは動作しない
- PrismMLが提供するカスタムフォーク版のllama.cppまたはMLXが必要
- CPUのみ:
- GPUは必須でなくモダンなCPUで推論可能
- AVX2対応CPUで速度が向上
- ただし、現時点ではCPUサポートが不完全で公式ベンチマークが存在しない
■ 5. モデルのバリエーションとライセンス
- 8Bのほか4Bと1.7Bのモデルも提供
- GGUF形式とMLX形式で利用可能
- Apache 2.0のオープンソースライセンス
■ 6. 用途と限界
- リアルタイム会話AI・コード補完・シンプルなエージェントタスクをローカルで処理可能
- プライバシー重視のアプリ・オフラインアシスタント・エッジデバイス・ロボティクスへの活用が期待される
- 多言語対応や複雑な推論が必要なワークロードではより大きなモデルに劣る