TesseractからAIOCR(Azure ・GCP)へ。文字認識ツールの進化。
AI音痴の魅力ハンター&ライターなまず美紀(みきてぃ)です。
AIの最新ニュースを入手するべく、システムズナカシマを突撃するシリーズ。
今回のテーマはOCRです!
…..というわけで、みきてぃ、まずはOCRを知るところからスタートです。
学んだことをシェアしますね。
OCRとは
OCRとはOptical Character Recognition(光学式文字認識)の略で、活字や手書き文字を認識して編集可能なテキストデータに変換する技術です。
前回のブログでは「画像認識」の進化について書きましたが、「文字認識」にも同じような進化のヒストリーがあるようなのです。
OCRツールとして最初に使われるようになったのは、2005年にヒューレットパッカード社がオープンソースとしてリリースしたTesseractです。
Tesseractは今はGoogleによって管理されています。Tesseractはさまざまなプラットフォームで使われていますが、横書きと縦書きの文字が混在している場合、手書き文字や低品質のスキャン画像、複雑な背景を持つ画像などでは認識精度が低下するという弱点もあります。また、アルファベットには強いけれど、日本語には弱いです。
そこで、2010年代中頃から急速に発展したのが、AIによるディープラーニングによって精度を向上させた「AI OCR」です。
AzureとGCP(Google Cloud Platform)
ディープラーニングを活用した高度な文字認識を実現したAIOCRの代表的なものに、AzureとGCP(Google Cloud Platform)があります。高速で正確なデータ化を実現できるAIOCRは、従来のOCR技術に比べて認識精度が大幅に向上し、手書き文字や複雑なフォント、様々な言語に対応できます。
では、実際にTesseract、Azure、GCPそれぞれを使って文字認識した際に、どのような違いがあるのでしょうか。それぞれの文字認識の結果を見てみましょう。
Tesseract
Tesseractを使った場合は、かなり認識できていない文字があることがわかります。
Azure
Azureを使うと、全体的に正確に文字認識できていますね。
GCP
こちらはGCPです。名称の「称」と「ケーブル」の「ー」が取り残されていますが、それ以外はほぼすべて読み取れています。
ちなみに高精度のAIOCRが出現したから Tesseractは使われなくなったかというと、そうでもなく、読み取る画像の種類によってTesseract、Azure、GCPにそれぞれに利用価値があり、使い分けられているようです。
一般的には、文字認識の結果はCSVファイルにエクセルで落とし込むしかないのですが、システムズナカシマでは、OCR化したものを図面と連携して、図面上に落とし込めることが強みだとか。
「図面上にある建具をAIで認識・識別・抽出し、かつ図面上の文字列も識別したい」といったご依頼に対応した「AI拾い出し」のシステムもありますので、気になる方はぜひお問合せくださいね!
▶AI×材料拾い『拾いの匠AI』はこちら
【イベント出展情報】画像認識 AI Expo (Vision AI Expo) 2024
6月12日(水)~14日(金)の期間に幕張メッセで開催される『画像認識 AI Expo (Vision AI Expo) 2024』に出展する運びとなりましたのでご案内いたします。
>> ブログはこちら
展示会概要
会期:2024年6月12日(水)~14日(金) 10:00~18:00(最終日のみ 17:00 終了)
会場:幕張メッセ(国際展示場 展示ホール2~6 / 国際会議場)(地図はこちら)
主催:株式会社アイスマイリー/株式会社ナノオプト・メディア
担当部署:東京支店 システム営業第3グループ
TEL:03-5821-9761
詳細はブログをご覧ください。
▶︎システムズナカシマでは、AI技術を用いたシステム開発をご提案させていただいております。
業務効率化などを検討されたい方は、お気軽にご相談ください。