今回はGoogleの大規模言語モデルである「Gemini 1.5」を使ってみました。
APIキーの発行は下記の記事から
【Google AI】Googleの大規模言語モデル Gemini Pro APIの利用方法
Gemini Pro 1.5とは?
Gemini Pro 1.5は、Googleが開発した最先端の大規模言語モデルです。
このモデルは、テキスト、画像、音声、ビデオなど、さまざまなデータモダリティを統合して同時に処理する能力を持っており、従来のAIモデルよりも幅広いタスクに対応できるよう設計されています。
例えば、複数の形式のデータを連携させて解析することで、より精度の高い結果を得ることができ、非常に複雑な問題に対しても優れたパフォーマンスを発揮します。
また、このモデルは、一般的なNLPタスクだけでなく、コンテンツの生成、データの分類、推論といった多様な作業に応用可能です。
特に、Gemini Pro 1.5は高度な推論タスクに特化しており、非常に大規模なデータセットを効率的に処理することができます。
たとえば、最大で2時間にわたるビデオデータを解析したり、19時間分の音声データを処理したりすることが可能です。
さらに、プログラミング関連のタスクにも対応しており、60,000行におよぶコードを一度に読み込み、その中から問題点を発見したり、最適なソリューションを提案したりする能力を備えています。
これにより、複雑なプロジェクトの分析やコードレビューがより効率的かつ精度高く行えます。
また、Gemini Pro 1.5は2,000ページに及ぶ長文のテキストデータも一度に処理することが可能で、長文のレポート作成やデータの集約、分析においても極めて優れたパフォーマンスを発揮します。
このように、Gemini Pro 1.5は、多くの業界や分野において、その高度な処理能力を活用した革新的なソリューションを提供するための強力なツールとなっています。
Gemini 1.5シリーズには主に次の2つのモデルがあります。
Gemini 1.5 Pro
一般的なAIタスクにおいて高い精度を求める場合に最適です。
大規模なテキスト処理、市場分析レポートの作成、新規事業アイデアの創出、高度なプログラミング、長文マニュアルの修正、プロジェクト資料の分析、小説へのフィードバックなど、複雑で詳細な作業に適しています。
Gemini 1.5 Flash
速度と効率性を重視した軽量・高性能モデルです。
大量データの要約、リアルタイムチャット(カスタマーサポートチャットボット、ゲーム内でのNPCの自然な対話など)、コンテンツの自動生成など、迅速かつ効率的な処理が必要なタスクに適しています。
Gemini Pro 1.5の費用
GeminiPro1.5は制限はありますが無料枠も用意されており気軽に試してみることができます。
それぞれの費用は以下の通りです。
Gemini 1.5 Flash

Gemini 1.5 Pro

最新の料金は次のURLから確認して下さい。
Gemini API の料金 | Google for Developers
Gemini Pro 1.5 APIの使い方
今回はPythonからGemini Pro APIを利用してみます。
最初に関係するライブラリをインポートします。
pip install google-generativeaiPythonでテキストから回答を生成をする形でAPIを呼び出します。
import google.generativeai as genai
# APIキーの設定
API_KEY = "YOUR_API_KEY" # ここに実際のAPIキーを記述
genai.configure(api_key=API_KEY)
# モデルの作成
gemini_pro = genai.GenerativeModel("gemini-1.5-pro") #モデルを指定 例:gemini-1.5-flash
# プロンプトの設定
prompt = "GoogleGeminiについて教えてください。"
# テキストの生成
response = gemini_pro.generate_content(prompt)
# 生成結果の表示
print(response.text)出力
今回はGeminiについて聞いてみました。
gemini-1.5-flash

gemini-1.5-pro

このコードを実行すると、設定したプロンプトに基づいてGemini 1.5が回答を生成し、その結果が表示されます。