column

マイクロソフトのFlorence-2が画像処理の汎用化を可能に！？

2024.07.24

みなさん、こんにちは！
AI音痴ライターのみきてぃです。
システムズナカシマから入手したAIの最新ニュースをお届けするシリーズ。
今回のテーマは、マイクロソフトが発表した画像処理モデル「Florence-2（フローレンス2）」です。

マイクロソフト「Florence-2」とは！？

Florence-2は、画像や映像を視覚的に認識するために開発された先進的なAI基礎モデルです。従来、開発者はAIに大量の画像をゼロから学習させて画像認識を行っていました。とても地道で労力のかかる作業です。
ところがFlorence-2はすでに一般的な画像について学習済み。これにより、開発者はAIに学習させる作業をスキップして、すぐに画像処理システムを構築・利用できるのです。

Florence-2の特長

Florence-2の特長を2つ挙げてみました。

１.多様・多量なデータで学習済み

Florence-2は1億2600万枚の画像に対して54億件の視覚注釈（テキスト）を学習済みです。一般名詞として使われているものは、ほぼ網羅していると言えます（有名なアニメキャラクターなどは固有名詞でも既に認識できる場合もあるそうです）。そのため、新たに学習させる必要がなく、すぐに利用可能です。

2.高度な視覚認識機能

画像や動画内のオブジェクトを分析、テキストを読み取り、顔を検出する高度な機能を装備しています。静止画像だけでなく、動画からの認識・検出もできるそうです。

Florence-2の活用方法

では、Florence-2はどんなシーンで実用化できるのでしょうか。いくつか活用例を挙げてみましょう。

画像分析

Florence-2は、画像や動画内のオブジェクトを認識し、特定の特徴を抽出する機能を提供します。監視カメラの映像を解析して不審な動きを検知したり、写真の中から人や車を特定して認識することができます。交通調査でトラックの台数を把握したり、草原を走る羊の数を数えたり。羊の中に牛が混じっていたら、それも抽出してくれるかも！？

顔検出

画像内の顔を検出し、認識する機能を提供します。たとえば、セキュリティシステムで訪問者の顔を識別する際に役立ちます。

テキスト読み取り

画像やスキャンしたドキュメントからテキストを抽出し、読み取ることができます。たとえば、看板や書類の文字をデジタルデータに変換することで、検索や共有が簡単になりますね。

画像キャプション生成

Florence-2は、画像に対して適切なキャプション（説明文）を自動生成する機能を提供します。たとえば、Eコマースサイトで商品画像に自動でタグを付けたり、ソーシャルメディアの投稿に説明文を追加することができます。

業務効率化の未来へ

Florence-2を利用することで、開発者は時間とコストを大幅に節約できます。従来の「赤ちゃんにゼロから言葉を教えて育てる」プロセスが、「経験豊富な大人を雇用する」くらいの効果を持つと言えるでしょう。画像や映像を活用するメーカー、製造業、建設業、小売業、広告業、教育など、あらゆる業界で業務効率化が期待できますね。

▶︎無料メルマガ会員募集！！
登録はこちら↓↓↓