/note/tech

ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp

Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5-20トークンを出力する。超強力なLLM推論エンジンの出現だ。

BitNetとは、そもそも1.58ビットに相当する情報量で、本来は4ビット以上必要な大規模言語モデルの計算を劇的に高速化する技術である。

LLMの推論には通常は巨大な浮動小数点数(8ビットから16ビット)の、大量の乗算(掛け算)が必要なため、GPUなどの特殊な半導体を必要としていた。特にNVIDIAのGPUがこの目的にマッチしていたので今も世界中で争奪戦が行われている。

しかし、BitNetは、そうした複雑で大規模な計算を、単なる足し算と引き算に変えてしまうという大胆な発想で、モデルの推論を劇的に高速化し、しかも計算コストの高い乗算を完全に排除できるという夢の方式としてなり物入りで登場したが、実用性は全くなかった。

ところがついに実用的なBitNetが登場した。それがBitNet-Llamaである。