OpenAIの「CUA(Computer-Using Agent)」を理解する
OpenAIは、AIがGUI(グラフィカルユーザーインターフェース)を人間と同じように操作できるモデル「CUA(Computer-Using Agent)」を開発し、Responses APIを通じて開発者向けに提供しています。さらに、実装パターンを示すサンプルアプリケーション openai-cua-sample-app をGitHubでオープンソース公開しました。本記事では、CUAの仕組み・使い方・メリットと注意点を整理します。
CUAとは何か——定義とできること
CUA(Computer-Using Agent)は、GPT-4oのビジョン能力と強化学習による高度な推論を組み合わせたモデルです。Webブラウザやデスクトップアプリのスクリーンショットを「見て」理解し、クリック・入力・スクロールなどの操作をAPI経由で返します。
従来のRPA(Robotic Process Automation)と異なり、個別のOS固有APIやDOM操作に依存せず、画面上の視覚的要素を直接認識して操作する点が特徴です。これにより、専用のコネクタやセレクタの作成なしに、幅広いアプリケーションに対応できる可能性があります。
具体的なユースケースとしては、ブラウザ上のフォーム入力、UIテスト自動化、社内ツールの操作自動化などが想定されています。
仕組みとアーキテクチャの要点
CUAの動作ループは以下のように構成されます。
- スクリーンショットの送信:開発者側の環境(ブラウザやVM)の画面キャプチャをAPIに送る
- モデルの判断:CUAモデルがスクリーンショットを解析し、次に実行すべきアクション(
click(x, y)、type(text)など)をcomputer_callとして返す - アクションの実行:開発者側のコードがそのアクションを実際の環境に対して実行する
- 結果の送信:実行後の新しいスクリーンショットを再びAPIに送り、ループを繰り返す
このループはResponses APIの computer_use ツールとして実装されています。モデル自体がOSやブラウザを直接操作するわけではなく、開発者側が実行環境を用意し、アクションの実行とスクリーンショットの取得を担う設計です。
導入手順と使い方の流れ
OpenAIが公開しているサンプルアプリ(openai-cua-sample-app)を使った基本的な手順は次のとおりです。
- 前提条件の確認:OpenAI APIキーを取得し、Usage Tier 3〜5のアカウントであることを確認する
- 環境セットアップ:
python3 -m venv .venv source .venv/bin/activate pip install -r requirements.txt - Playwrightの初期化:ブラウザ環境を利用する場合、初回実行時にPlaywrightの依存パッケージのインストールが求められる
- CLIで実行:ローカルブラウザウィンドウを使ってCUAにタスクを指示する
サンプルアプリにはNext.jsベースのオペレータコンソールやFastifyランナーも含まれており、より本格的な検証環境を構築することもできます。デフォルトモデルは computer-use-preview(初期公開時)で、設定により変更可能です。
メリットと制約・注意点
メリット
- API不要のアプリ操作:対象アプリケーションがAPIを公開していなくても、GUI経由で自動化できる
- 汎用性:Webアプリ、デスクトップアプリ、レガシーシステムなど幅広い対象に対応しうる
- サンプルアプリの充実:公式リポジトリにより、導入の学習コストを下げられる
制約・注意点
- 精度の限界:OSWorld(フルデスクトップ操作ベンチマーク)での成功率は38.1%と報告されており、信頼性はまだ発展途上である(OpenAI公式情報)
- セキュリティリスク:スクリーンショットをAPIに送信するため、画面上の機密情報が漏洩するリスクがある。サンドボックス環境での利用が推奨される
- コスト:APIの利用料金は入力トークン$3/100万、出力トークン$12/100万(Research Preview時点の参考値)。スクリーンショットの画像トークンが多くなるため、1タスクあたりのコストに注意が必要
- 利用資格:Research Preview段階ではUsage Tier 3〜5の開発者のみが利用可能
- CUAモデル自体はオープンソースではない:公開されているのはサンプルアプリケーションとAPIインターフェースであり、モデルの重みやトレーニングコードは非公開
関連技術と比較観点
「コンピュータ操作エージェント」分野では、以下の技術が比較対象になります。
項目 | OpenAI CUA | Anthropic Claude Computer Use | OpenCUA(オープンソース) |
|---|---|---|---|
提供形態 | API(モデル非公開) | API(モデル非公開) | モデル重み公開 |
OSWorldスコア | 38.1% | 22%(公開時点) | 45.0%(OpenCUA-72B) |
対応環境 | ブラウザ・デスクトップ | ブラウザ・デスクトップ | ブラウザ・デスクトップ |
実行環境の責任 | 開発者側 | 開発者側 | 開発者側 |
なお、ベンチマークスコアは評価条件やバージョンにより変動するため、あくまで参考値として捉えてください。Anthropicは2024年10月にClaude 3.5 Sonnetでのcomputer use(ベータ版)を公開しており、この分野は各社が活発に競争しています。