DeepMind A.I. Robot ve İnsan Sesi Arasındaki Boşluğu Kaldırdı

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary
Anonim

Yapay zeka, robot seslerini daha gerçekçi bir hale getirdi.

Daha önce A.I.’nın gücünü gösteren DeepMind. Go'da Mart ayında bir insan oyuncu yenerek ve güç faturasını Temmuz ayında yarı yarıya keserek, şimdi konuşma sentezine odaklanıyor.

Google ana şirketi Alfabesinin bir parçası olan A.I araştırma grubu, bu sabah konuşma, müzik ve diğer sesleri eskisinden daha doğru bir şekilde üretmek için kullanılabilecek WaveNet adlı yeni bir teknoloji yarattığını açıkladı.

DeepMind, mevcut birçok konuşma sentezi yönteminin “çok büyük bir kısa konuşma parçası veritabanının tek bir konuşmacıdan kaydedildiğini ve ardından tam ifadeler oluşturmak için yeniden birleştirildiğini” açıkladığını açıklıyor. Öte yandan, WaveNet “ses sinyalinin ham dalga biçimini kullanıyor” ”Daha gerçekçi sesler ve sesler yaratmak için.

Bu, WaveNet'in bir insan tam heceleri veya tüm kelimeleri kullanmak yerine konuştuğunda yarattığı bireysel seslerle çalıştığı anlamına gelir. Bu sesler daha sonra DeepMind'in makinelerle birlikte “karmaşık, gerçekçi ses veren bir ses üretmek için gerekli” bulduğu “hesaplama açısından pahalı” bir süreçten geçiyor.

Tüm bu ekstra çalışmaların sonucu, ABD İngilizcesi ve Çin Mandarin'sinde sentezlenmiş konuşmaya yüzde 50 iyileşme oldu. İşte bu konuşma sentezi yönteminin nasıl bulunmadığını göstermek için DeepMind tarafından kullanılan, bugün yaygın olan parametrik metinden konuşmaya kullanılarak oluşturulan bir konuşma örneği:

Ve burada, WaveNet tarafından oluşturulan aynı cümle örneği:

Şirketler doğal dil arayüzleri üzerine çalışmalarına devam ettikçe, daha gerçekçi ses yanıtları sunmak giderek daha önemli hale gelecektir. WaveNet bu sorunu çözmeye yardımcı olabilir.