Nvidia’nın canlı akış ve video konferans aracı olan NVIDIA Broadcast, Nvidia Maxine sayesinde artık herhangi bir kişinin gözlerini gerçek zamanlı dijital olarak değiştirerek doğrudan kameraya bakıyormuş gibi görünmesini sağlayabilecek. Gelin hep birlikte bu muazzam özellik işe yarıyor mu diye bir göz atalım…
Bu yazımızı da incelemek isteyebilirsiniz: NVIDIA Görüntü Ölçeklendirme Teknolojisi Nedir, Nasıl Kullanılır?
NVIDIA’nın yeni dönem çözümleri
Profesyonel kullanımdan, evde amatör Youtube videoları çekmeye, hatta basit görüntülü aramalar yapmaya kadar yaşamımızın her alanında ortaya çıkan ve online platformların çözülemeyen sorunlarından birisi olan; kamerayla kesintisiz göz teması kurabilmek artık mümkün…
Birçok kişi ekranda karşısındaki insana bakmak yerine doğrudan kameraya bakmak durumunda kalmakta ve bu durum karşılıklı bir rahatsızlık uyandırmaktadır. Kamera yerine ekrana bakmak konuştuğumuz kişiyi veya izleyicileri rahatsız ederken, bunu yapmamak ise konuştuğumuz kişiyle veya izleyicilerle etkileşimi bozar.
Bu sorunu çözmeye yardımcı olmak için NVIDIA, kamerayla göz teması kuruyormuş gibi görünmenizi sağlayabilecek şekilde; yapay olarak ayarlayabilen bir tür “deepfake” teknolojisi geliştiriyor. Eye Contact olarak adlandırılan bu özellik, göz temasını simüle ederek izleyicilerin anlattığınız konuyla etkileşimini geliştiriyor.
NVIDIA, “Yeni Göz Teması efekti, konuşmacının gözlerini hareket ettirerek kamerayla göz temasını simüle eder ve bakışları öncesinden tahmin edip hizalayarak doğru açıyı elde eder.” diyerek Eye Contact özelliğini açıklıyor. “Gözler doğal rengini koruyor ve açılıp kapanıyor, hatta uygulamada çok uzağa bakmanız durumunda ise simüle edilmiş ve gerçek gözler arasında sorunsuz geçiş yapmak için bir bağlantı kesme özelliği bile bulunuyor.” ifadelerini kullanan NVIDIA, bu özelliğin sağlayacağı yarardan oldukça emin görünüyor.
Nvidia Maxine ve Eye Contact nedir?
Broadcast’e bu hafta tanıtılan teknoloji, son bir yıldır Maxine adı altında NVIDIA’da geliştiriliyor. Maxine; ses, video ve artırılmış gerçeklik efektlerini gerçek zamanlı olarak geliştirmek için tasarlanmış bir dizi GPU hızlandırmalı yapay zeka özelliğinden yararlanıyor.
“Göz Teması, notlarını veya senaryoyu okurken kendilerini kaydetmek isteyen veya doğrudan kameraya bakmak zorunda kalmaktan kaçınan içerik oluşturucular için idealdir.” diyen NVIDIA, “Video konferans sunucuları, konuştukları kişinin gözlerine bakacak ve izleyicileriyle etkileşimi artıracak.” ifadelerini kullanarak yapay zeka ile düzeltilmiş Eye Contact özelliğinin faydalarını, geçen yılın başlarında Maxine için bir video ile tanıttı.
Eye Contact, NVIDIA Broadcast’e dağıtılırken hala geliştirme aşamasındaydı ve NVIDIA, onu geliştirmek için kullanıcı topluluğuyla birlikte çalışmak istediğini söylüyor. Yani Eye Contact ve Maxine’in sağladığı tüm özellikler hâlâ BETA sürümünde diyebiliriz. Çok fazla farklı göz rengi tonu ve aydınlatma kombinasyonu olduğundan, genel olarak güvenilir olduğundan emin olmak için yapay zekanın kendisini geliştirmesi gerekecektir ve bu da zaman alabilir.
Nvidia Maxine’in diğer özellikleri
Arka plan gürültüsünü giderme: Konuşmacının doğal sesini korurken yapay zekadan destek alarak birkaç genel arka plan gürültüsünü kaldırır (rüzgar, klima, televizyon).
Oda yankısı kaldırma: Sesteki yankılanmaları gidererek konuşmacının sesinin netliğini geri kazandırır.
Ses süper çözünürlüğü: Ses sinyalinin zamansal çözünürlüğünü artırarak ses kalitesini iyileştirir. Şu anda 8 kHz’den 16 kHz’e ve 16 kHz’den 48 kHz’e yukarı örneklemeyi desteklemektedir.
Akustik yankı önleme: Ses akışından gelen gerçek zamanlı akustik cihaz yankısını iptal ederek uyumsuz akustik çiftleri ve aynı anda konuşmanın yarattığı anlaşılmazlıkları giderir. Yapay zeka tabanlı teknolojiyle, geleneksel dijital sinyal işlemeye göre daha etkilidir.
Yüz ifadesi tahmini: Yüzü izler ve özne tarafından hangi ifadenin sunulduğunu çıkarır.
Vücut poz tahmini: İnsan vücudunun 34 önemli noktasını 2B ve 3B olarak tahmin eder ve izler. Artık çok kişili izleme desteği de bulunmaktadır.
Yüz işareti izleme: 126 anahtar noktayı kullanarak yüz hatlarını tanır. Kafa hareketlerini, yüz ifadesinden kaynaklanan kafa pozlarını ve yüz deformasyonunu gerçek zamanlı olarak üç farklı derecede izler ve artık daha da yüksek kaliteli izleme elde etmek için HQ modu desteği bulunmaktadır.
Face mesh: 3.000 adede kadar köşe ve altı serbestlik derecesine sahip bir 3B ağ ile bir insan yüzünü tarayabilir.