Soraからこぼれたストーリー

OpenAIが動画生成AI「Sora」と言うのを出してきました。

皆さん驚いてますが、そうでしょうか？　もしかしたら大した事は無いのかも？

毎回ですが言っておきます。ド素人です。疑って聞いて下さい。

私は、前に「動画をやるには３Dに一度落とし込むのが良いのでは無いのか？」と言いました。stable diffusionのやり方だと、無理だと思ったからです。

今回の「Sora」を見てみると、３Dに落とし込んでから描画してる様に見えませんか？

もしかしたら、全然違くて、新たな物の可能性もありますが、見た感じでは、３Dで描いている様に見えます。

一番多く出て来る、東京を女の人が歩くと言う動画があります。

この道に水が張ってあって、向こうの景色かなんとなく映り込んでいます。

これって、３Dで落とし込んでから描画しないと無理じゃないですか？

他にも電車で外を見ているシーンもあります。

これも、窓にこっち側が映り込んでいます。

これにも驚いている人がいますが、いや、ただ単に３Dで描画してるだけだったとしたら、別に普通でしょ？　今までのゲームでもやればできるからです。

このシーンの外の家々。なんか３Dで家を一軒一軒描いたのを、並べたようにみえませんか？

そして電車と人を３Dで作り、それを並べてから、後はゲームと同じように、レイトレーシングで描けば良いだけです。

人間を３Dでここまでリアルに作る事は今でもできる。

町をここまでリアルに作る事も今でもできる。

映り込みを描く事もレイトレーシングで、昔から出来る。

つまり、何も新しくはない。

新しい事と言えば、これをどこまで自動で作れたのか？　と言う所です。

テクスチャとか動きとかは、たぶん自動で取り込んで作ったのでしょう。まあそれだけでも画期的だし、かなりの自動化にはなります。

ただ、もし、人の関節とか、動物の関節とか、顔の動きとか、元になる３Dはもう作ってあって、それに自動でテクスチャを張っただけなら、別に驚く事ではない。

ただ、自動でテクスチャを貼るにしても、それが何かを判別する必要がある。人の顔だとか、建物だとかです。

それを認識して、そこから３Dの元があったとしても、それに張り付けて、動きも作れたのなら、実はそれでもういいのです。

それが出来たら、たとえ驚くやり方でなくても、それでとても良いものが出来ると見せれた事になります。

それに何かを自動で認識出来るのなら、それが自動運転でも役に立つ事でしょう。

いや、認識が出来る事は分かってますが、それを並べて世界を構築出来ていると言うのが、いいのです。

人や車が、空を飛ばないと分かっていると言う事だからです（だから、その次の動きの範囲が分かると言う事です。人も車も、道なりに移動し、移動速度も分かる。だから、道から遠くにいる人が危険ではないと分かると言う事です）

その、動きや性質が、ある程度分かっていると言う事なら、それは自動運転でも役に立つのです。

建物と道が分かれば、行く方向が分かる。人が分かればそれが危険だと分かる、その人の動きが分かれば、「この人は飛び出しそうだ」と分かる。ゴミ箱とか布とか犬とか、道にある物が判別できれば、それに対処も出来るからです。

自動運転が出来ると言う事は、自動でロボットが店内を移動できると言う事です。

（逆に自動運転も出来ないと、安全にロボットが客のいる店内を移動も出来ないのです）

物を判別できれば、それが何かが分かる。その性質が分かれば、その対処法も分かるのです。

例えば、缶詰だと分かれば、それを棚に並べる事も出来る。しかしそれが服なら、グニャグニャして缶詰の様には並べれない。しかしたためるようになるかもしれない。

ポテトや肉が分かり、それの性質が分かれば対処できるかもしれない。焼く前のハンバーグは柔らかいので扱いに注意が必要、等の事です。それが出来て始めて、自動マクドナルドが出来るのです。

などなど、実はこの「３Dに落とし込む」と言うのは、全ての自動ロボットの第一歩の気がするのです。

もしかしたら、ここから急に、ＡＩロボットの普及に繋がるのかもしれないな、と、私は思っています。

ただ、もう一度言っておきますが、私は素人だし、この考えが、そもそもまるっきり外れているかもしれないので、注意してください。

しかし、もしこれがあっていたとしたら？

「３Dに落とし込むのがいいだろう」と言った事が当たってた事になるので、ひそかに喜んでおきます。

そして「ここからが、世間の見た目を変える、ＡＩロボのスタートだった」となるかもしれませんね。

号漫浪正大