OpenAIの音声認識AIモデル「Speech to text」のAPIをPythonで使ってみた

Posted at 2023 年 10 月 22 日

今回はOpenAIのAI音声認識の「Speech to text」のAPIをPythonで使ってみました。
APIキーの発行は下記のページを参考にしました。
初心者向け:ChatGPTのAPIキーを取得する方法

注意点

APIを利用する際の注意点として以下の2点があります。

  1. ファイルのアップロードは25 MB
  2. 対応ファイルはmp3, mp4, mpeg, mpga, m4a, wav,及びwebm

APIの利用方法

事前にopenaiライブラリを取得して下さい

import openai

# APIキーを設定
openai.api_key = 'your-api-key'

# 音声ファイルを読み込みます。
audio_file = open("file/audio.mp3", "rb")

# 音声をテキストに変換します。
transcript = openai.Audio.transcribe("whisper-1", audio_file)

# 結果を表示します。
print(transcript['text'])

今回はnarakeetと音声合成サービスのサイトを使ってオーディオファイルを作成しました。

音声ファイルの内容は以下のようになります。

音声認識用のサンプルファイルです
りんご
バナナ
みかん
オレンジ

実行結果

正確に認識されました。

DevpediaCode編集部

DevpediaCodeはWeb、AI、Iot、ローコードなどプログラムに関する最新ITテーマの情報を発信するメディアです。

お問合せ下記のURLからお願いします。

https://devpediacode.com/contact