ChatGPT4oとは?新機能や特徴を紹介!

ChatGPT ChatGPT4o

1. はじめに

2024年5月14日にOpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能にし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。本記事では、GPT-4oの詳細な特徴とその影響について解説します。

2. GPT-4oの特徴

性能向上

GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に “Chatbot Arena” でgpt2というコードネームでテストされていたチャットボットがGPT-4oであったことを認めました。このArenaでの評価値は、モデルの賢さを示すもので、GPT-4oは他のモデルを大きく上回るスコアを記録しました。

3. マルチモーダル性能

音声、画像、テキストの統合処理

GPT-4oの特筆すべき特徴は、音声認識、知性、テキスト読み上げが一体化されている点です。これにより、遅延が大幅に改善され、会話の割り込みや背景ノイズ、複数の声、声のトーンなど、複雑な対話の要素を理解できるようになりました。動画認識や音声認識の機能は段階的に提供される予定で、当面はテキストと画像認識を中心とした限定的なサービス提供になるとのことです。

リアルタイム翻訳デモ

発表会では、OpenAIのミラ・ムクティCTOがイタリア語で話した内容を、GPT-4oがリアルタイムで英語に翻訳するデモが行われました。GPT-4oの高度な言語理解とリアルタイム翻訳能力が印象付けられ、処理能力が飛躍的に向上したことを示していました。

実際にChatGPTとの会話が自然に成立しており、さらに声のトーンや感情表現がより豊かになっていました。

数式読み取りデモ

また、紙に手書きで書いた数式をGPT-4oに読み取らせ、解法のヒントを自然な対話形式で提供するデモも行われました。このデモは、GPT-4oの高度な問題解決能力を示すもので、多くの観衆を驚かせました。

画像からの文字認識機能はChatGPTの以前からの課題であり、特に日本語の文字認識は苦手としていました。しかし、現在はその点が改善され、日本語でもかなり精度高く認識できるようになっています。

4. 他社モデルとの比較

画像認識タスク

GPT-4oの画像認識性能は、他社モデルと比較しても非常に高いことが示されています。詳細なベンチマーク結果は、OpenAIのリリース記事で確認できますが、GPT-4oはその精度とスピードで他社モデルを圧倒しています。

GPT4の性能では他のClaudeを含むLLMに性能面で負けてしまっていましたが、これを機にまたトップに躍り出ました。以前からGPT−4を使用していた方は感じていたであろう、動作のモッサリ感が軽減され、速さが売りになっているGPT-3.5に匹敵するほどのスピードになっています。

音声認識性能

音声認識の性能においても、GPT-4oは専用モデルであるWhisperに勝る結果を出しています。これにより、GPT-4oは多様な音声データを迅速かつ正確に処理する能力を持つことが証明されました。

会話での遅延が軽減され、実際に人と話しているのと変わらないような速度感で会話を進められるため、手放しで悩み相談やブレストの場面で重宝すること間違いなしです。

5. 無料ユーザーへの提供開始とAPIの強化

無料ユーザーへの提供

これまで、GPT-4系列は有料課金ユーザーのみに提供されていましたが、GPT-4oは無料ユーザーにも機能が提供されることになりました。有料ユーザーには、無料ユーザーの5倍の使用制限が設定されますが、無料で高性能なモデルを利用できるようになったことは大きな進展です。

開発者向けAPIの詳細

開発者向けのAPIでは、GPT-4oがGPT-4 Turboと比べて2倍速く、50%安価になり、Rate limitが5倍に引き上げられました。その結果、GPT-4oのAPI価格はClaude 3 Opusの1/3以下、Gemini 1.5 Proと比べても30%引き程度となりました。高い性能を持つGPT-4oが、非常に競争力のある価格で提供されることにより、多くの企業や開発者がこのAPIを利用することが予想されます。

モデルインプットアウトプット
GPT-4o$5$15
Claude 3 Opus$15$75
Gemini 1.5 Pro$7$21

6. トークン効率改善と言語対応

トークン使用量の削減

GPT-4oでは日本語や中国語を含む20言語でトークナイザーが改善され、トークン使用量が30%程度削減されました。タミル語やヒンディー語などでは、トークン使用量が3分の1程度にまで減少しています。これにより、多言語対応の効率が大幅に向上しました。特に日本語は英語に比べて使用トークン量が多いことによってAPI利用料が跳ね上がってしまう傾向にあったため、嬉しい変更です。

日本語対応の改善

特に日本語においては、トークン使用量の削減と出力速度の向上が報告されています。これにより、日本のビジネス環境での利用が一層促進されることが期待されます。具体的には、日本語のトークン使用量が約30%削減され、API使用料金も半額になったため、全体の費用が約35%に抑えられる見込みです。

7. まとめ

GPT-4oは、OpenAIの今までのモデルと比べて飛躍的な進化を遂げたと言えるでしょう。発表会でのライブデモは、大規模言語モデルと自然な会話を行える日が近いことを予感させる内容でした。特に日本語対応の改善や無料ユーザーへの提供開始は、多くのユーザーにとって大きな利点となるでしょう。一方で、動画・音声機能の一般公開はまだ先になりそうで、少し残念な点もあります。今後のさらなる改善に期待したいところです。

8. 参考リンク