/note/tech

Microsoftの1ビットLLM「BitNet」の進化版「BitNet Distillation」、既存マルチモーダルLLMで長文を...

要約:

■ 1. BitNet Distillation(Microsoft Research開発)

  • 概要: 既存LLMを1.58ビット精度(-1、0、1の三値重み)に変換する手法で、2023年発表の「BitNet」の進化版である
  • BitNetの問題点:
    • 競争力のある精度を得るには大規模コーパスでゼロから事前学習する必要があり、膨大な計算コストがかかる
    • 既存のフルプレシジョンモデルを直接1.58ビットに変換すると性能が大幅に低下する
    • モデルサイズが大きくなるほど劣化が拡大する
  • BitDistillの改善点:
    • Qwenなどの既存高性能LLMを出発点として使用できる
    • SubLNモジュール、MiniLMベースの蒸留、継続的事前学習という3段階の最適化により、フルプレシジョンモデルと同等の精度を維持する
    • モデルサイズが増えても性能劣化が起きない優れたスケーラビリティを実現した
  • 実験結果:
    • 分類タスクやテキスト要約などの下流タスクでフルプレシジョンモデルと同等の精度を達成した
    • メモリ使用量を10分の1に削減し、CPU上での推論速度を2.65倍高速化した
    • レイテンシ、スループット、メモリ効率、エネルギー消費において改善を提供する
    • スマートフォンなどのエッジデバイスでの実用的なLLM展開が容易になる

■ 2. HunyuanWorld-Mirror(Tencent開発)

  • 概要: 画像や動画から立体的な3D空間を数秒で生成できるAIフレームワークである
  • 入力の柔軟性:
    • 1枚の画像だけでなく、複数視点の画像や動画に対応している
    • カメラの姿勢や内部パラメータ、深度マップといった多様な幾何学的事前情報を柔軟に統合できる
  • 出力の多様性:
    • 点群、複数視点の深度マップ、表面法線、3Dガウシアンなど複数の3D表現を同時に生成する
    • Multi-Modal Prior Promptingという新しいメカニズムにより事前情報がトークン化され、画像情報と効果的に統合される
  • 技術的特徴:
    • トランスフォーマーベースのアーキテクチャを採用している
    • カメラパラメータの回帰から密な予測タスクまで統一的なデコーダーヘッドで処理する
    • トレーニング時に異なる事前情報の組み合わせをランダムにサンプリングすることで、推論時に利用可能な情報が限定的な場合でも柔軟に対応できる
  • 性能評価:
    • 点マップとカメラ推定ではVGGTやπ³を上回る
    • 表面法線予測ではStableNormalやGeoWizardを凌駕する
    • 新規視点合成ではAnySplatを超える結果を示した

■ 3. DeepSeek-OCR(DeepSeek-AI発表)

  • 概要: 長大な文書コンテキストを画像化して効率的に処理するシステムである
  • 処理方式:
    • OCR(光学文字認識)技術を用いて、手書き文書や書籍をスキャンして画像データに変換する
    • 視覚トークンという圧縮された形式を使用してテキストを大幅に圧縮し、計算処理を効率化する
  • 圧縮効率:
    • 元のテキストトークンを10分の1に圧縮しても97%という高い文字認識精度を維持できる
    • 20分の1まで圧縮しても約60%の精度を保てることが実証された
  • システム構成: DeepEncoderとDeepSeek3B-MoE-A570Mデコーダーという2つの主要コンポーネントで構成される
  • ベンチマーク性能:
    • OmniDocBenchにおいて100個の視覚トークンのみでGOT-OCR2.0(256トークン/ページ)を上回る
    • 800個未満の視覚トークンでMinerU2.0(平均6000トークン以上/ページ)を超える性能を発揮した
    • 単一のA100-40G GPUで1日あたり20万ページ以上の学習データ生成が可能である

■ 4. テキスト画像化による計算コスト削減研究(アレン人工知能研究所など)

  • 研究目的: 長文テキストを単一の画像として描画してモデルに直接入力することで、マルチモーダル大規模言語モデル(MLLM)の入力トークンを削減しながら性能を維持できるかを検証する
  • 背景課題: 現在のLLMはTransformerアーキテクチャにより、入力長に対して計算コストが2次的に増加するという課題を抱えている
  • 研究アプローチ:
    • GPT-4 VisionやGoogle Gemini 2.5などの最新MLLMが画像からテキストを読み取る能力に着目した
    • テキストの画像表現を入力圧縮の手段として活用することを検証した
  • ConTexImageパイプライン:
    • テキストを制御された解像度の画像に変換する
    • フォントサイズを自動調整して最適な可読性を確保する
    • 大規模モデルで最大45%のエンドツーエンドの処理速度向上を実現した
  • 実験結果:
    • 長文タスクのRULERベンチマークと要約タスクのCNN/DailyMailベンチマークで評価を実施した
    • GPT-4.1-miniとQwen2.5-VL-72Bモデルは、最大58%少ないデコーダートークンで97~99%の精度を維持した
    • 要約タスクでも既存の圧縮手法を上回る性能を示した
    • 72Bパラメータの大規模モデルは視覚的に密集したテキスト情報を効果的に処理できることが明らかになった

■ 5. 共通トレンド

  • 効率化技術の進展:
    • ビット精度削減によるメモリとエネルギー効率の改善(BitNet Distillation)
    • テキストの視覚トークン化による圧縮と高速化(DeepSeek-OCR、テキスト画像化研究)
  • マルチモーダル統合の高度化: 画像、動画、テキストなど異なるモダリティを効果的に統合する技術が進化している(HunyuanWorld-Mirror)
  • エッジデバイス展開の促進: 軽量化技術によりスマートフォンなどでの実用的なLLM展開が現実的になっている