Googleの大規模言語モデル「Gemini Pro API」のマルチモーダル機能を使ってみた

今回はGoogleの大規模言語モデルである「Gemini Pro API」のマルチモーダル機能を使ってみました。

APIキーの発行は下記の記事から

【Google AI】Googleの大規模言語モデル Gemini Pro APIの利用方法

Gemini Pro APIのテキスト生成機能は以下から

Gemini Pro APIのマルチモーダル機能の使い方

今回はPythonからGemini Pro APIを利用してみます。

最初に関係するライブラリをインポートします。

pip install google-generativeai

今回は最初にファイルを選択できる形で実装できる形で実装します。

PythonのGUI作成ツールである、Tkinterを利用します。

import google.generativeai as genai
import PIL.Image
import tkinter as tk
from tkinter import filedialog

# APIキーを設定
API_KEY = "YourAPIKey"
genai.configure(api_key=API_KEY)

# モデルを選択
model = genai.GenerativeModel('gemini-pro-vision')

# 画像ファイルを選択するためのファイルダイアログを開く
root = tk.Tk()
root.withdraw()  # メインウィンドウを表示しない
file_path = filedialog.askopenfilename()  # ファイル選択ダイアログを開く

# 画像を読み込む
image_path = PIL.Image.open(file_path)

# プロンプトと画像を使用してコンテンツを生成
prompt = "画像について教えて下さい。"
response = model.generate_content([prompt,image_path], stream=True)
response.resolve()

# レスポンスを表示
print(response.text)

出力

今回は次の柴犬の画像の情報を教えてもらいました。

状況や、柴犬であることも教えてくれました。

Gemini Pro APIのマルチモーダル機能の使い方

DevpediaCode編集部