/note/tech

Metaの大規模言語モデル「LLaMA-65B」のデータが4chanで流出

Metaが2023年2月に発表した大規模言語モデル「LLaMA」はGPT-3と匹敵する性能を持ち、単体のGPUでも動作可能なほどに動作が軽いことから、コンシューマーレベルのハードウェア環境でもChatGPTのようなAIを動かせるようになることが期待されています。そんなLLaMAのデータが流出したと話題になっています。

LLaMAはMetaのAI研究組織であるMeta AI Researchによって開発された大規模言語モデルです。OpenAIのChatGPTやDeepMindのChinchillaなど、従来の大規模言語モデルを動作させるためにはAIに最適化したアクセラレーターを複数台使う必要があったのに対し、LLaMAは単体のGPUでも十分動作可能で、モデルの規模を示すパラメーター数も圧倒的に少なくて済むというのが利点。記事作成時点では、モデルデータの一部がGitHubで公開されており、Meta AI Researchに連絡すればニューラルネットワークで学習した「重み」を別途ダウンロード可能という状態です。

ダウンローダーを公開したショーン・プレッサー氏は「すでにLLaMAの重みデータがリークされたことを危険だと主張する人も出てきています。しかし、GPT-2の1.5B(パラメーター数15億)モデルがリークした時も皆同じことを言っていました。実際、GPT-2の大きな魅力が、2019年に私が機械学習について真剣に取り組む原動力となったのです。あれから4年経った2023年になって、GPT-2のリークモデルについてはもう誰も気にしていませんし、広範な社会的被害はなかったことがはっきりとわかりました。LLaMAも同様でしょう」とコメントしています。