Derin 'Güçlendirme Öğrenme' Robotlara Her zamankinden Daha Hızlı Yeni Beceriler Öğretiyor

$config[ads_kvadrat] not found
Anonim

Robotlar, hızlandırılmış sanal dünyalardaki görevlerin nasıl tamamlanacağını öğreniyor, aylarca sürebilecek birkaç saat içinde beceri geliştiriyorlar. Simüle edilmiş derin güçlendirme öğrenmesi (veya Derin RL), bir A.I. için normalde 55 gün sürecek bir beceri anlamına gelir. Gerçek dünyada öğrenmek, aşırı hızlandırılmış sınıfta sadece bir gün sürer.

Google DeepMind’in bir araştırma bilimcisi olan Raia Hadsell, Perşembe günü Londra’daki Re-Work Derin Öğrenme Zirvesi’nde, “Robotik alanında yapabileceklerimizde gerçekten devrim yapma potansiyeli var” dedi. “İnsan seviyesi becerilerini öğrenebiliriz.”

Programcıların onlara bir şeyler yapmayı öğretebilecekleri kesin olduğundan, robotların tüm meselesi elbette olduğu gibi, karşı sezgisel gelebilir. Gerçek dünyada çalışan bir makine tasarlarken robotlar, bilinmeyen bir durumda nasıl bir iş yapılacağını anlamak için çok fazla veriye ihtiyaç duyar. A. I. Daha önce gelen tüm örneklere dayanarak bir beceriyi “öğrenmek” için bu verileri kullanabilir.

Derin pekiştirici öğrenme, bu verileri insanların nasıl öğrendiğine benzer bir şekilde toplar: bir robot, bir topu yakalamak gibi bir işi tekrar tekrar tamamlar ve yeni bir durumda topu nasıl en iyi yakalayacağına dair bir resim oluşturmak için verileri kaydeder. DeepMind, bir robotu Atari oyunlarında nasıl ustalaşacağını öğretmek için 2013'te modeli kullandığında, sadece ekranın önünde oturarak ve nihai hedefi söyleyerek, bilim topluluğu onu sevdi.

Sorun şu ki, bu sonsuza kadar sürecek. Bir robotu defalarca fırlatıp atmanız veya Atari davasında bir süre için robotu yatak odasında yalnız bırakmanız gerekir. Bir MuJoCo simülasyonu yürütmek, ilerici bir sinir ağı ile birlikte, eğitmenler robotu taklit eden, öğrenilen davranışları robota transfer eden ve sanal hareketleri gerçek dünyaya eşleyen bir program çalıştırabilir.

Hadsell, “Bu simülatörleri bütün gün ve bütün gece çalıştırabiliriz” dedi.

Sonuçlar kendileri için konuşur. Yakalama diplomasına sahip olan bu robot şimdi sanal topları gerçekmiş gibi izleyebilir, gerçek bir topu yakalaması istendiğinde büyük gün için hazırlar:

$config[ads_kvadrat] not found