マイクロソフトのFlorence-2が画像処理の汎用化を可能に!?
みなさん、こんにちは!
AI音痴ライターのみきてぃです。
システムズナカシマから入手したAIの最新ニュースをお届けするシリーズ。
今回のテーマは、マイクロソフトが発表した画像処理モデル「Florence-2(フローレンス2)」です。
マイクロソフト「Florence-2」とは!?
Florence-2は、画像や映像を視覚的に認識するために開発された先進的なAI基礎モデルです。従来、開発者はAIに大量の画像をゼロから学習させて画像認識を行っていました。とても地道で労力のかかる作業です。
ところがFlorence-2はすでに一般的な画像について学習済み。これにより、開発者はAIに学習させる作業をスキップして、すぐに画像処理システムを構築・利用できるのです。
Florence-2の特長
Florence-2の特長を2つ挙げてみました。
1.多様・多量なデータで学習済み
Florence-2は1億2600万枚の画像に対して54億件の視覚注釈(テキスト)を学習済みです。一般名詞として使われているものは、ほぼ網羅していると言えます(有名なアニメキャラクターなどは固有名詞でも既に認識できる場合もあるそうです)。そのため、新たに学習させる必要がなく、すぐに利用可能です。
2.高度な視覚認識機能
画像や動画内のオブジェクトを分析、テキストを読み取り、顔を検出する高度な機能を装備しています。静止画像だけでなく、動画からの認識・検出もできるそうです。
Florence-2の活用方法
では、Florence-2はどんなシーンで実用化できるのでしょうか。いくつか活用例を挙げてみましょう。
画像分析
Florence-2は、画像や動画内のオブジェクトを認識し、特定の特徴を抽出する機能を提供します。監視カメラの映像を解析して不審な動きを検知したり、写真の中から人や車を特定して認識することができます。交通調査でトラックの台数を把握したり、草原を走る羊の数を数えたり。羊の中に牛が混じっていたら、それも抽出してくれるかも!?
顔検出
画像内の顔を検出し、認識する機能を提供します。たとえば、セキュリティシステムで訪問者の顔を識別する際に役立ちます。
テキスト読み取り
画像やスキャンしたドキュメントからテキストを抽出し、読み取ることができます。たとえば、看板や書類の文字をデジタルデータに変換することで、検索や共有が簡単になりますね。
画像キャプション生成
Florence-2は、画像に対して適切なキャプション(説明文)を自動生成する機能を提供します。たとえば、Eコマースサイトで商品画像に自動でタグを付けたり、ソーシャルメディアの投稿に説明文を追加することができます。
業務効率化の未来へ
Florence-2を利用することで、開発者は時間とコストを大幅に節約できます。従来の「赤ちゃんにゼロから言葉を教えて育てる」プロセスが、「経験豊富な大人を雇用する」くらいの効果を持つと言えるでしょう。画像や映像を活用するメーカー、製造業、建設業、小売業、広告業、教育など、あらゆる業界で業務効率化が期待できますね。
▶︎システムズナカシマでは、AI技術を用いたシステム開発をご提案させていただいております。
業務効率化などを検討されたい方は、お気軽にご相談ください。