/note/tech

Bonsai-8Bに関するメモ

■ 1. Bonsai-8Bの概要

  • PrismMLが2026年3月31日にステルスから公開した82億パラメータのLLM
  • モデルサイズは1.15GBで同サイズの標準16ビットモデルの約14分の1
  • エッジハードウェア上で8倍高速かつエネルギー効率は4〜5倍優れる
  • Caltechのリサーチから生まれたスタートアップでKhosla VenturesやCerberusおよびGoogleが出資

■ 2. 1ビット量子化の特徴

  • 全重みが−1または+1の2値のみで表現される
  • 学習後処理ではなくネイティブの1ビット精度でゼロから学習される
  • 埋め込み層・アテンション層・言語モデルヘッドを含む全層が1ビットで構成される

■ 3. 性能と動作速度

  • ベンチマーク平均スコアは70.5点でフル精度8Bクラスモデルと競争力を持つ
  • 知性密度(intelligence density)はQwen3 8B(0.10/GB)を大幅に上回る1.06/GBを達成
  • 動作速度:
    • M4 Pro Mac: 毎秒131トークン
    • RTX 4090: 毎秒368〜440トークン(記載箇所により異なる)
    • iPhone 17 Pro Max: 毎秒約44トークン
  • 標準的な16ビット8BモデルはiPhoneでは動作しないがBonsai-8BはiPhone上でネイティブ動作が可能

■ 4. 対応プラットフォームとハードウェア要件

  • 必要メモリ: 約1.5GB(モデル本体1GB+オーバーヘッド)
  • 標準のllama.cppやLM Studioは1ビット重みに未対応のためPrismML提供の専用推論エンジンが必要
  • Appleデバイス(Mac/iPhone/iPad):
    • MLXを通じてネイティブ動作
    • M1以降のMシリーズおよびA18以降のAシリーズチップ対応
    • 統合メモリ8GB以上が最低スペック
    • PrismMLのカスタムMLXフォークが必要
  • NVIDIA GPU(Windows/Linux):
    • llama.cppのCUDA経由でネイティブ動作
    • CUDA対応GPUが必須でVRAM 2〜4GB程度で動作可能
    • ただし、標準のllama.cppやLM Studioは1ビット重みに未対応のため、そのままでは動作しない
    • PrismMLが提供するカスタムフォーク版のllama.cppまたはMLXが必要
  • CPUのみ:
    • GPUは必須でなくモダンなCPUで推論可能
    • AVX2対応CPUで速度が向上
    • ただし、現時点ではCPUサポートが不完全で公式ベンチマークが存在しない

■ 5. モデルのバリエーションとライセンス

  • 8Bのほか4Bと1.7Bのモデルも提供
  • GGUF形式とMLX形式で利用可能
  • Apache 2.0のオープンソースライセンス

■ 6. 用途と限界

  • リアルタイム会話AI・コード補完・シンプルなエージェントタスクをローカルで処理可能
  • プライバシー重視のアプリ・オフラインアシスタント・エッジデバイス・ロボティクスへの活用が期待される
  • 多言語対応や複雑な推論が必要なワークロードではより大きなモデルに劣る

関連: