OpenAI’ın Yeni Şaheseri: Sora

Güncelleme Tarihi: 28 Şubat 2024

ChatGPT’nin dünyayı salladığı 2021 yılından beri oldukça yüksek bir ivmeyle yapay zekanın geliştiğine tanık oluyoruz. Ancak kontrolsüz bir şekilde topluma açılması ve bunun sonucunda birçok istenmeyen olayın yaşanması, yapay zeka uygulamaları üzerinde çalışan şirketlerin bir nebze daha yavaşlamasına neden olmuştu. Aynı zamanda biz kullanıcılar, kısa sürede ChatGPT, DALL-E, Gemini ve benzeri yaratıcı yapay zeka araçlarını kullanmaya alıştık. Görünen o ki 2024 yılı itibarıyla yaratıcı yapay zeka konseptinin bayrak taşıyıcısı OpenAI, Sora ile tekrar radikal ilerlemeler yapmaya hazırlanıyor.

Onu hepimiz gördük ve gördüğümüz anda tüylerimiz ürperdi. OpenAI’ın yeni şaheseri Sora, tüm dünyayı değiştirmeye hazırlanıyor. Peki, Sora nasıl çalışıyor? Dünyaya nasıl etkileri olabilir? Gelin derinlemesine inceleyelim…

Sora Nasıl Çalışıyor?

Geçtiğimiz aylarda sosyal medyada büyük yankı uyandıran, “Will Smith spagetti yiyor.” isimli videoyu görmüş müydünüz? Metinden video üreten bir yapay zeka modeli olan ModelScope AI ile üretilen bu video, birçok kişide yapay zekanın uzun bir süre boyunca video üretimini gerçekleştiremeyeceği kanısını oluşturmuştu. Çünkü video olabildiğince absürt olduğu gibi aynı zamanda öznenin ağız yapısını, spagettinin fiziki hareketlerini doğru bir şekilde yansıtmıyordu ve oldukça komik görünüyordu. Yakın zamanda Sora ile öğrendiğimiz üzere metinden video üretimi sandığımızdan çok daha kısa bir süre içerisinde gerçeklendi.

Google’ın Gemini yapay zeka güncellemesini ve Stable Diffusion’ın Stable Cascade’i duyurduğu şubat ayında bir bomba da OpenAI’dan geldi. 15 Şubat tarihinde Sora isimli yeni metinden video üreten yaratıcı yapay zekalarını duyuran OpenAI, modellerinin yetenekleriyle gören herkesi büyüledi. Peki, Sora nasıl çalışıyor?

OpenAI, modellerinin nasıl çalıştığı hakkında detayları vermekten kaçınıyor. İlk defa GPT-4 ile birlikte gördüğümüz bu duruşun gerekçesi olarak kontrolleri dışı gerçekleşebilecek, etik olmayan geliştirmeleri önleme amacını gösterseler de aslında patentini korumak isteyen bir şirketten farklı değiller. Bu sebeple Sora’nın arkasındaki LLM(Büyük Dil Modeli) nasıl çalışıyor tam anlamıyla bilgi sahibi değiliz. Ancak OpenAI’ın bazı açıklamaları ve sektörün önde gelenlerinin yorumlarıyla derlemek mümkün.

Veri Seti:
Sora’nın arkasında LLM’lerdekine benzer bir şekilde internetten alınan devasa video veri setinin gücü yatıyor.
Video Etiketleme:
Derlenen videolar, ayrı bir yapay zeka modelinde videonun içeriğini belirlemek üzere yeniden işleniyor. Böylece videonun neyi anlattığı, hangi öznelere sahip olduğu, renk paleti gibi oldukça geniş bir parametre uzayına sahip olan veri seti oluşturuluyor.
Sıkıştırma:
Oluşturulan videolar, küçük piksel parçalarına bölünerek bir kodlayıcıyla sıkıştırılıyor ve tek boyutlu bir matrise dönüştürülüyor. Bu sayede işlem gücünden önemli ölçüde tasarruf sağlanıyor.
Anlamsal Eğitim:
Bu noktada videoların içeriğindeki anlamların girdi olarak verilen metinle bağdaştırılması üzerine takviyeli öğrenme yöntemine tâbi tutulan Sora; bir görselin içeriğini üç boyutlu sahneyi doğru yansıtacak şekilde oluşturmak, her bir kareden sonra gelecek kareyi doğru tahmin etmek ve özneleri sahne içerisinde korumak gibi önemli yetenekleri öğreniyor.
Difüzyon:
Elde edilen çıktı, sıkıştırmalar nedeniyle üzerinde gürültü içeren görseller kümesi oluyor. Bu noktada ise eksik veya hatalı piksellerin ne olduğunu tahmin eden gelişmiş bir difüzyon modeli kullanılıyor. Sonuç olarak arka arkaya sıralanan karelerden oluşan bir video elde edilmiş oluyor.

Sora’nın Yetenekleri Neler?

Şimdiye kadar gördüğünüz görüntülerden ve teknoloji dünyasının yaşadığı dumurdan anlayabileceğiniz üzere Sora, belki de 2024 yılının en büyük olaylarından biri olabilir. Peki, Sora’nın yetenekleri ve diğer modellerden farklı yaptığı şeyler ne? Gelin madde madde inceleyelim…

Gerçekçi Fiziksel Dünya Anlayışı

Modelin görenleri korkutan yanlarından biri de fiziksel dünyayı oldukça gerçekçi bir şekilde yansıtabilmesi. OpenAI tarafından yayınlanan videolar gösteriyor ki Sora; ışık yansımaları, partikül fiziği, fiziksel etkileşimler gibi bir yaratıcı yapay zeka modeli için oldukça karmaşık şeyleri yerine getirebiliyor.

Geniş Boyutlandırma Seçeneği

Sora’nın metinden videoya üretim yapan diğer modellere kıyasla en büyük farkı, oldukça geniş bir boyutlandırma seçeneği sunması. Modelin çok daha iyi çıktı vermesi nedeniyle şimdiye kadar veri setleri hep kare şeklinde kırpılarak hazırlanıyordu. Haliyle çıktılar da kare olmak zorundaydı. Ellerinde büyük bir işlemi gücünü barındıran OpenAI, bu konuda oldukça cömert davranarak 1920×1080 ve 1080×1920 yatay ve dik ölçeklerinde üretim yapmaya imkan tanımış durumda. OpenAI’ın bu konuyu açıklarken kullandığı “Sora farklı en boy oranına sahip cihazlar için içerik üretebilir.” cümlesinden de anlayabileceğimiz üzere modelin ortaya çıkarabileceği ticari başarının mimarlarından biri bu özellik olacak.

Güçlü Metin Anlama Yeteneği

Sora’nın öne çıktığı yönlerden biri de kullanıcı girdisini oldukça iyi anlayan DALL-E ve ChatGPT gibi modelleri geliştiren bir şirket tarafından yapılması. Yakın zamanda kullanıma sunulan ve yine bir OpenAI harikası olan Microsoft Designer’ın en basit girdileri bile oldukça anlamlı görsel çıktılara dönüştürdüğü göz önüne alınırsa, bu özelliğin tüm kullanıcılara hitap etme açısından önemli olduğunu söyleyebiliriz.

Video ve Görselleri Girdi Olarak Alabilme

Şimdiye kadar Sora’nın metin olarak girdi alabilmesinden bahsettik. Ancak modelin yetenekleri yalnızca bununla sınırlı değil. Model, hem video hem de görsel girdi alabiliyor. Bu durum sevdiğiniz bir filmin bir sahnesini değiştirmek istediğinizde Sora’yı kullanabilirsiniz anlamına geliyor.

Halihazırdaki Videoların Geçmişini ve Geleceğini Oluşturma

Yukarıda bahsettiğimiz maddenin en çarpıcı kullanımlarından birini videonun geçmişini ve geleceğini tahmin edebilme yeteneğinde görüyoruz. Sora, girdi olarak verdiğiniz bir videonun öncesinde yaşananları oldukça tutarlı bir şekilde yeniden oluşturabiliyor. Örneğin geçmişi yarattığınız takdirde Sora tarafından oluşturulan video, yumuşak bir şekilde orijinal videoya bağlanıyor.

Video Düzenleme

Sora, Adobe PhotoShop’ta gördüğümüz anlık düzenlemeye imkan tanıyor. Girdi olarak verdiğiniz videodaki bazı özellikleri beğenmediğiniz takdirde ufak bir metin girdisiyle düzenlemeler yapabiliyorsunuz. Örneğin videonun daha açık bir havada geçmesini isterseniz basitçe bunu söyleyip, videonun sevdiğiniz kısımlarını koruyabiliyorsunuz.

Özneleri Sabit Tutma ve Değişken Perspektif

Gerçek dünyayı simüle etme noktasında Sora’nın en başarılı yaptığı şeylerden biri özneleri ve değişkenleri sabit tutma başarısı. OpenAI tarafından yayınlanan videolarda gördüğümüz üzere birçok insanın bulunduğu bir alışveriş caddesi sahnesinde bile hem odaktaki özneler hem de değişen çevre anlamlı bir şekilde konumlarını korumaya ve etkileşime geçmeye devam ediyor. Bu durum, Sora’nın üretimlerinin gerçeğe bu kadar benzemesindeki en büyük sebep.

Öte yandan Sora, farklı perspektifler, kamera oyunları ve sinematografik dokunuşlarla ilgili girdileri de algılıyor ve buna uygun görüntüler oluşturabiliyor. Yayınlanan videolarda bir karakterin drone ile havadan ve değişken perspektifle çekilebileceği veya video arası geçişlerde fokus değiştirme gibi sinematografik tercihlerin uygulanabileceği gibi örnekleri görüyoruz.

Sora Neyi Yapabilir, Neyi Yapamaz?

Yapay zeka modelleri ilk ortaya çıktığında çoğu kişi yeni çıkan modelin yetenekleriyle büyüleniyor ve artık hiçbir şeyin eskisi gibi olmayacağını düşünüyor. Gitgide bu düşünceye alışsak da Sora’nın henüz kitlesel kullanıma açılmadığını ve bizimle paylaşılan videoların OpenAI ekibi tarafından yapılan sayısız örnek içerisinden özenle seçildiğini belirtmemizde fayda var. Öte yandan “Herkes için yapay zeka” mottosunu bir az olsa da korumaya devam eden OpenAI, Sora’nın kötü performans verdiği noktaları da bizimle paylaştı. Paylaşılan videolarda göze çarpan konular ise şu şekilde:

Cam parçalanması gibi çok kompleks fiziksel etkileşimleri doğru şekilde yerine getiremiyor.
Bazı durumlarda videonun yer aldığı dünyadaki fiziksel değişimleri korumakta zorlanıyor. Örneğin bir dürüm ısırıldıktan sonra dahi ısırılmamış halde kaldığına rastlanabiliyor.
Kompleks perspektif tercihlerini takip etmekte zorlanabiliyor.
Karmaşık sahnelerde öznelerin kamera açısından çıkmasına veya çevrenin sürekli olarak değişmesine neden olabiliyor.
Sahne içerisinde anlamsız duran görüntü veya objeler, sınırlı kare süresince olsa da görülebiliyor.
Birçok insan veya hayvanın olduğu sahnelerde el parmakları, saçlar veya kıyafetlerde bozunmalar yaşanabiliyor.

Tüm bu örnekler, Sora’nın zamana ihtiyacı olduğunu gösteriyor. Fakat bizimle paylaşılanlar ve Sora’nın yetenekleri çerçevesinde gelecekte ne ile karşılaşabileceğimizi ve modelin olası kullanım alanlarını tahmin etmemiz mümkün. İşte sizin için birkaç örnek:

Sosyal Medya:
Daha önce de bahsettiğimiz üzere Sora’nın en güçlü yanlarından biri çeşitli ölçülerde üretim yapabilmesi. Bu durum, halihazırda yapay zeka görselleriyle dolup taşan sosyal medya içerik üreticiliğini büyük ölçüde etkileyecek. Çoğu içerik üreticisi, sıfırdan bir video düzenlemek veya çekmek yerine Sora’yı tercih edecek. Hal böyleyken insanlar tarafından üretilen videoların azalması mümkün.

Sinema Sektörü:
Sora, henüz yetenekleri göz önüne alındığında kaliteli bir sinema ürünü üretmekten bir hayli uzak. Çünkü oldukça kısa süreli video çıktıları üretebiliyor. Ancak yaratıcı yönü ve sunduğu geniş sinematografik manipülasyon yelpazesi, başta görüntü yönetmenleri ve sahne tasarımcıları için bambaşka bir kapıyı aralayacak. Sektörün uzmanları, doğru sahne, açı ve çekim için büyük meblağlar harcamak yerine Sora tarafından üretilen videolardan ilham almayı tercih edebilir.

Üç Boyutlu Sahne Tasarımı:
Yapay zeka tarafından üretilen statik görüntüler, sanatçılara ilham kaynağı olsa da üç boyutlu sahne tasarımı için kullanılamıyordu. Ancak Sora ile dinamik ve değişken kamera açısına sahip videoların yaratılması, Blender gibi programlar sayesinde yapay zeka tarafından üretilen sahnenin üç boyutlu olarak dijital dünyaya aktarılabileceğini gösteriyor. Böylesi bir düzenleme ile birlikte başta oyun ve sinema dünyası olmak üzere dijital olarak üretilen neredeyse her şey etkilenebilir. Uzun yıllardır konuşulan gerçek metaverse, hiç beklemediğimiz bir yardımcı olan Sora ile sağlanabilir.

Yapay Zeka Endişeleri: Sora’nın Bugünü ve Geleceği

Sora hiç şüphesiz ki bugüne kadar gördüğümüz en gelişmiş ve en gerçekçi yaratıcı yapay zeka modeli olacak. Model, çoğu anlamda tamamlanmış olsa da henüz kullanıma sunulmadı. OpenAI’ın beyanlarına göre bunun arkasında şimdiye kadar birçok kez dillerini yakan etik sorunlar ve güvenlik endişesi yatıyor. Yoğurdu üfleyerek yeme çözümleri ise sektörün önde gelen isimlerine danışmak olacak.

Şirketin açıklamasına göre Sora 15 Şubat itibarıyla Kırmızı Takım olarak adlandırdıkları uzmanlar tarafından kullanılıyor. Kırmızı Takım, modelin nefret söylemleri, dezenformasyon, cinsellik ve yanlı üretime karşı kullanılmasını engellemek amacıyla önemli geri bildirimler hazırlıyor. Sonuç olarak Sora, Microsoft Designer ve DALL-E 3’te karşılaştığımıza benzer bir şekilde oldukça katı kuralları olan ve kullanıcıların çıktılarını limitleyen bir modelle tüm dünyaya açılacak. Bunun dışında sanatçılar, yönetmenler ve dijital medya uzmanlarına da Kırmızı Takım’ın içerisinde yer alıyor.

GPT-4 ile birlikte OpenAI’ın söylemlerinin önemli ölçüde değiştiğine ve sürekli olarak Genel Yapay Zeka’dan bahsettiğine şahit oluyorduk. Sora, uzmanların 2050’li yılları gösterdiği GYZ’nin sandığımızdan çok daha yakın olduğunu kanıtlar nitelikte. Çünkü yapay zeka bu sefer yalnızca yaratıcı olmakla kalmıyor, aynı zamanda insanları en çok etkileyen medya araçlarından olan dinamik görüntü oluşturabiliyor. Tabii ki hala gerçek dünyayı tam anlamıyla yansıtmıyor. Hatta ilginç bir şekilde sosyal medyadaki birçok kullanıcı ise Sora’nın oluşturduğu bazı görüntülerin aynı bir rüyaya benzediğini söylüyor. Anlaşılan o ki Sora yayınlandığı zaman yetenekleriyle değil toplumda yarattığı infial ile tartışılacak.