叡智の三猿

〜森羅万象を情報セキュリティで捉える

当サイトは、アフィリエイト広告を使用しています。

Microsoft の OneNote で OCR を試してみました

OCR(Optical Character Recognition/Reader・光学的文字認識)は、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。デジタル化が進んでも紙媒体による申込書、契約書、伝票類は依然として無くなってません。OCRの精度向上がDX化の鍵を握ります。

では、OCRの精度がどの程度なのかを実験してみます。

OCRにはフリーのソフトがいくつかあります。フリーであれば、気兼ねなく使えます。

そのなかで、今回はMicrosoft のOneNoteを選びました。OneNoteはMicrosoft社が開発したデジタルノートです。Microsoftアカウントがあれば無料で利用できます。OneNoteは、会議のアジェンダや議事録を作るのに重宝します。「OneNote」は、OCRがサポートされているので使うことができます。

まずは画像データから文字をどの程度、正確に認識するかです。画像データとして、このブログ(叡智の三猿)のプライバシーポリシーをスクリーンショットしました。スクリーンショットした画像データをOneNoteに貼り付けます。そのうえで、画像上で右クリックして、「画像からテキストをコピー」を選択しました。

その結果が下図です。ひととおり画像データがしっかりとテキストに変換されていることが分かります。ただ、いくつかの変換で問題があります。たとえば、メールアドレスという言葉が、メーノしアドレスと、誤変換されています。確かに「ル」という文字は「ノ」と「し」を組み合わせた文字のように見えますね。また、ブログという言葉は、と、濁点や半濁点を正確に読み取っていなません。さらに情報という言葉は、報とか、宿報という具合に、人間でいうケアレスミス?をしています。そして、致命的なのは文章の流れが原文と変わってしまっていて、そのまま読むことが出来なくなっていることです。今回、変換したプライバシーポリシーのような短めの文章であれば、まだ変換された文章を修正して読めるようにはできますが、契約書などの長い文だと、訳が分からなくなってしまいそうな不具合です。

次は手書き文字を読み取る実験です。下図のように、OneNoteにマウスで「あいう」と描画しました。「あいう」と皆さんは読めますよね??手書きした文字をテキスト文字に変換するには「なげなわ選択」という機能を使います。

「なげなわ選択」により範囲していした手書き文字から「インクをテキストに変換」という機能を選択した結果が下図です。あーなんて、残念な結果でしょう・・・。OCRくんは「あいう」は「あい」と、読んでしまいました。確かにわたしの手書き文字は汚いし、「う」と「ろ」は似通っていると思います。しかし、普通の人間の読解力があれば、この手書きの「う」を「ろ」とは読まないと思います。

もちろん、この結果がOCRの精度のすべてを語っているわけではありません。OneNoteはフリーですが、OCRの認識精度がより高いものが要求するのであれば有償版を検討するべきでしょう。有償版として、販売されているOCRのなかには、認識率90%以上を誇るものもあると聞きます。ただ、同じ手書き文字でも縦書きで書かれていると、うまく対応ができない場合が多いようです。

なお、OCRは紙に書かれた情報をデジタルなテキストデータに変換する技術ですので、業務効率化に寄与する反面、セキュリティリスクはより高くなります。もちろん、紙媒体に記録された情報でも、建屋への侵入をして情報を盗むような、物理的なセキュリティリスクはあります。しかし、そこは施錠付きロッカーに情報を格納することで、ある程度のリスク低減がはかれます。

しかし、紙情報がデジタル化されることで、遠方の攻撃者が通信回線からOCRサーバに不正アクセスをして、テキスト化された機密情報を盗み出し、情報漏えいを起こすかもしれません。ですので、組織でOCRを採用するなら、サーバーへの通信経路やデータの暗号化が必要です。また、不正アクセスを検知するためIDS/IPSの設置も検討するべきでしょう。