/note/tech

Laboro.AI、日本語版「BERT」モデルを開発--オープンソースで公開

BERTは、2018年10月にGoogleが発表した自然言語処理モデル。従来の自然言語処理アルゴリズムと比べて、文章の文脈を理解することに長けているほか、文章分類や感情分析などさまざまなタスクに応用したり、インターネット上にある大量のデータから事前学習したりできる。

Laboro.AIでは、主に英文への対応が中心だったBERTを日本語の文章にも対応できるように、独自のBERT事前学習モデルを開発した。インターネット上で公開されているニュースサイトやブログなど約4300のウェブサイト・260万以上のウェブページに掲載されていたテキスト情報を独自に収集し、言語データベースとなるコーパスを構築。この日本語の言語情報データを使って学習を行わせた。

おっ