今回はOpenAIのAI音声認識の「Speech to text」のAPIをPythonで使ってみました。
APIキーの発行は下記のページを参考にしました。
初心者向け:ChatGPTのAPIキーを取得する方法
注意点
APIを利用する際の注意点として以下の2点があります。
- ファイルのアップロードは25 MB
- 対応ファイルはmp3, mp4, mpeg, mpga, m4a, wav,及びwebm
APIの利用方法
事前にopenaiライブラリを取得して下さい
import openai
# APIキーを設定
openai.api_key = 'your-api-key'
# 音声ファイルを読み込みます。
audio_file = open("file/audio.mp3", "rb")
# 音声をテキストに変換します。
transcript = openai.Audio.transcribe("whisper-1", audio_file)
# 結果を表示します。
print(transcript['text'])
今回はnarakeetと音声合成サービスのサイトを使ってオーディオファイルを作成しました。
音声ファイルの内容は以下のようになります。
音声認識用のサンプルファイルです
りんご
バナナ
みかん
オレンジ
実行結果
正確に認識されました。