/note/tech

日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました

最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。

しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。

ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。

もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユースケースも多くありますので、ローカルサーバーで実行できるサービスも必要だと思います。

そこで、ローカルサーバーで実行可能かつ、日本語文書に特化したOCR,ドキュメント画像解析を行うPythonパッケージ「YomiToku」を開発しました。YomiTokuの名前は日本語の"読み解く"から来ています(安直ですね笑)。