OpenAIの音声認識AIモデル「Speech to text」のAPIをPythonで使ってみた

今回はOpenAIのAI音声認識の「Speech to text」のAPIをPythonで使ってみました。
APIキーの発行は下記のページを参考にしました。
初心者向け：ChatGPTのAPIキーを取得する方法

注意点

APIを利用する際の注意点として以下の2点があります。

ファイルのアップロードは25 MB
対応ファイルはmp3, mp4, mpeg, mpga, m4a, wav,及びwebm

APIの利用方法

事前にopenaiライブラリを取得して下さい

import openai

# APIキーを設定
openai.api_key = 'your-api-key'

# 音声ファイルを読み込みます。
audio_file = open("file/audio.mp3", "rb")

# 音声をテキストに変換します。
transcript = openai.Audio.transcribe("whisper-1", audio_file)

# 結果を表示します。
print(transcript['text'])

今回はnarakeetと音声合成サービスのサイトを使ってオーディオファイルを作成しました。

音声ファイルの内容は以下のようになります。

音声認識用のサンプルファイルですりんごバナナみかんオレンジ

実行結果

正確に認識されました。

注意点

APIの利用方法

DevpediaCode編集部