今回はGeminProマルチモーダル機能でOCRを試してみました。
使い方は以下から
【Google AI】Googleの大規模言語モデル Gemini Pro APIの利用方法
名刺
まずは架空の名刺から名前を抽出してみました。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/75db74f7d69d45fb8c46443e9c4d255b/Design.png)
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/d5adb560dca3471dae69a5cfb569a924/GeminiV.png)
名前が一部間違っていますが、日本語にも対応しているようです。
次に住所を抽出してみます。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/1f8b1863c9934acb8cf4073e92546642/GeminiV2.png)
今度は完璧に正しい情報を抽出してくれました。
なかなか高精度ですね。
請求書情報
今度は項目が多い請求書で試してみます。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/7fe9194b5c4e4d7285fe0b02157c07a1/%E8%AB%8B%E6%B1%82%E6%9B%B8.png)
最初に振込先の情報を抽出してもらいました。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/1f18c29018f1411796ea6162f5619b2e/GeminiV3.png)
銀行名が思いっきり違いますね、実在するメガバンクの名前をアウトプットしてしまっています。
次に合計金額を抽出してもらいます。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/24a5dc87ed3b4039b3985b14b7747672/GeminiV4.png)
正しい情報ですね。
最後に摘要を抽出してもらいます。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/5e4693c7c3a243ea9102a6a6a11471b6/GeminiV5.png)
全く違う情報を抽出しています。
ここら辺はプロンプトで改善できる余地もありそうですが。
看板
最後に写真に写っている看板の文字情報を抽出してみます。
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/129fcc31abd047c0b736250096d439f9/28877991_s.jpg)
![](https://images.microcms-assets.io/assets/52137c02cafa4450bbdc092b64fbadac/677d5e65c13d47019f815002ecef8156/GeminiV6.png)
正しい情報をアウトプットしてくれています。
今回は3枚の画像で試してみました。
項目が多くなるとやや精度が落ちますが結構実用的ではないんでしょうか。