【最新版】OpenAIが発表した動画生成AI「Sora」とは？実際の生成動画も合わせて紹介！

はじめに

2024年2月15日、OpenAIは研究中のText-to-Video（テキストから動画生成）モデルAI「Sora」を発表しました。この新しいサービスで生成される動画のクオリティは非常に高く、多くの反響を呼びました。

しかし、現状はまだリリースはされていません。

この記事では、現時点で公表されているSoraに関する情報を網羅的にまとめ、紹介していきたいと思います。

この記事を読むメリット

話題の動画生成AI「Sora」の詳細がわかる

実際の生成例を見ることが出来る

目次開く

はじめに
Soraとは？
- 物理世界のシミュレーションを行うことができる
Soraの特徴
Soraの課題点
Soraの安全性に関する考慮事項
Soraの生成例
リリースについて
まとめ

目次へ

Soraとは？

「Sora」はOpenAIが開発した最新の動画生成モデルで、日本語の「空」に由来します。Text-conditional diffusionモデルを使用して、様々な長さ、解像度、アスペクト比のビデオや画像でトレーニングされており、高解像度のビデオを最大1分間生成できます。

物理世界のシミュレーションを行うことができる

Soraの重要な機能の一つに、物理世界をシミュレートする能力があります。OpenAIは現実世界の相互作用を解析し、解決するための学習モデルの開発に取り組んでおり、AIに物理的な世界の理解とシミュレーションを教える努力を続けています。

今までは画像を少し動かす程度でしか表現ができなかった画像生成AIですが、Soraによってよりアクティブな動きを表現酢rふことができるようになります。

Soraの特徴

異次元の言語理解力

DALL・E 3と同様に、GPTを活用して短いユーザープロンプトを詳細なキャプションに変換し、動画生成モデルに送信します。これにより、Soraはユーザーのプロンプトに正確に従う高品質なビデオを生成できます。

プロンプト：Space movie trailer featuring a man wearing a red wool knitted motorcycle helmet

日本語訳：赤いウールのニット製バイクヘルメットをかぶった男性が登場する宇宙映画の予告編

画像から動画生成

Soraは、画像やビデオを入力として受け取り、これを基に動画を生成できます。この機能により、無限ループするビデオの作成や静止画像のアニメーション化、ビデオの前後方向への拡張が可能です。

生成されたビデオの拡張

Soraはビデオを前後に拡張して、シームレスな無限ループ動画などを生成できます。

動画の中で足りない要素を補填し、存在しなかった「続き」を生成してくれます。

シミュレーション機能

Soraは、動くカメラを含む動画で人物やオブジェクトを3D空間内で一貫して動かすことができ、長いビデオでもオブジェクトの一貫性を保ちます。また、世界に影響を与えるアクションをシミュレートすることもできます。

一貫性の確保は多くの画像生成AIの弱点でしたが、Soraはこの点を完全に克服していると言えます。

動画間の編集

SDEditと呼ばれる手法を用いて、Soraは入力動画のスタイルや背景をゼロショットプロンプトで変換することができます。

二つ以上の動画を繋げる

Soraは、異なるテーマやシーン構成を持つ2つのビデオ間にシームレスなトランジションを作成することも可能です。

画像生成機能

Soraは、最大2048×2048の解像度で画像を生成できます。ガウスノイズのパッチを使用して、さまざまなサイズの画像を生成します。

Soraの課題点

現在のモデルには、以下のような弱点があります：

複雑な空間を正確にシミュレートすること
物事の因果関係の理解
プロンプトの空間的詳細の混同
時間の経過に伴う出来事の正確な描写

Soraの安全性に関する考慮事項

OpenAIはSoraをユーザーに提供する前に、「レッドチーム」と協力してモデルをテストしています。誤情報や偏見などに対応する専門家が参加しています。

将来的には、C2PAメタデータを含めたテキストや画像の分類器による監視が行われます。違反するプロンプトは拒否され、ビデオ出力はフレームごとにレビューされます。

Soraの生成例

実際にSoraで生成された動画をいくつかご紹介します。

プロンプト：Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

日本語訳：アニメーションシーンでは、溶けた赤いろうそくの横にひざまずく、短くてふわふわしたモンスターのクローズアップが描かれています。アートスタイルは 3D でリアルで、照明とテクスチャに重点が置かれています。モンスターが目を大きく開いて口を開けて炎を見つめているため、絵画の雰囲気は驚きと好奇心に満ちています。そのポーズと表情は、まるで周囲の世界を初めて探検しているかのような、無邪気さと遊び心を伝えています。暖かい色とドラマチックな照明の使用により、画像の居心地の良い雰囲気がさらに高まります。

プロンプト：A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patterns in the sand.

日本語訳：内部に禅庭があるガラス球のクローズアップ画像。球体の中には小さな小人がいて、禅庭を掻き集めて砂に模様を描いています。

プロンプト：Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic

日本語訳：マラケシュのマジックアワーに立つ24歳の女性のまばたきの極端なクローズアップ、70mmで撮影された映画のようなフィルム、被写界深度、鮮やかな色、映画のような

プロンプト：A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

日本語訳：プロンプト: スタイリッシュな女性が、暖かく輝くネオンと動く都市の看板でいっぱいの東京の通りを歩いています。彼女は黒い革のジャケット、赤いロングドレス、黒いブーツを着て、黒いハンドバッグを持っています。サングラスをかけ、赤い口紅を塗っています。彼女は自信に満ち、気楽に歩いています。通りは湿っていて反射しており、色とりどりのライトが鏡のように映っています。多くの歩行者が歩いています。