ITライター・編集者 柳谷智宣 | AI時代の情報発信者
mail@yanagiya.biz
ITライター柳谷智宣
本記事は、OpenAIが発表した新しいAIエージェント「Operator」について解説します。2025年1月24日にSam Altman氏が発表したOperatorは、ユーザーに代わってウェブブラウザを操作し、タスクを自動実行する能力を持っています。予約や買い物などの日常的なタスクを迅速かつ効率的に代行し、まるで人間が操作しているかのように見えるその技術は非常に画期的です。
Operatorは、キーボードやマウス、画面のピクセル情報を認識し、ユーザーの指示に基づいてタスクを実行します。デモでは、飲食店の予約や買い物リストの商品をオンラインで購入する様子が紹介され、複雑な操作もスムーズにこなす姿が披露されました。特定のAPIが存在しないウェブサイトでも、ピクセル分析によってボタンやフォームの位置を認識し、タスクを遂行することができます。
また、Operatorの背後には「Computer-Using Agent(CUA)」というモデルがあり、GPT-4.0を基に開発されています。CUAは、スクリーンショットから状況を推測し、具体的なアクションを決定してマウスやキーボードを操作するプロセスを繰り返すことで、高度な自律的操作を実現します。
セキュリティ面にも配慮があり、大きな操作や支払いを伴うタスクでは、ユーザーに確認を求める仕組みが取り入れられています。また、怪しい挙動を検出し、プロセスを停止させる「Prompt Injection Monitor」も搭載されています。
研究プレビューとして提供が開始されたOperatorは、今後さらに進化し、多様なタスクに対応できるエージェントが登場することが期待されます。この要約は生成AIで作成しました。