“Tekin” Ustalaşan Algoritma, “Tekli Flappy Bird” de Mükemmel, Yine Tek

Ali Nesin-Derin Matematik-37- (Öklid Algoritması)

Ali Nesin-Derin Matematik-37- (Öklid Algoritması)
Anonim

İçin öncü olan derin öğrenme yöntemini geliştirmek gürültü, Space Invaders ve diğer Atari oyunları, Stanford Üniversitesi bilgisayar bilimleri öğrencisi Kevin Chen, klasik 2014 yandan kaydırma çubuğunda oldukça iyi bir algoritma yarattı Flappy Bird. Chen, bir oyuncunun her oynama süresinde ödül puanını arttırmayı, neredeyse imkansız ve imkansız bir bağımlılık yaratan oyunu mükemmelleştirmeyi amaçladığı “q-learning” olarak bilinen bir kavramdan yararlandı.

Chen, algoritmasının üç ödül aramak için optimize edildiği bir sistem yarattı: hayatta kaldığı her kare için küçük bir pozitif ödül, bir borudan geçmek için büyük bir ödül ve ölmek için eşit derecede büyük (ama negatif) bir ödül. Böylece motive olmuş, sözde derin q ağı, Chen’in yazdığı rapora göre, “İnsanları geride bırakabildi:“ Oyunu başarıyla oynayabildik. Flappy Bird Piksellerden ve puanlardan doğrudan öğrenerek süper insani sonuçlar elde ederek. ”

2015 yılında yayınlanan orijinal Atari makalesi Doğa, Google'ın sahip olduğu DeepMind şirketinden (artık eski Çin tahta oyunu Go'nun ustalığıyla ünlü) geldi. DeepMind başarısı, görsel - ya da en azından bilgiyi - en az bilgiyle elde etmesi ve minimal girdiyle ödülleri en üst düzeye çıkarması için bir atılımdı. Böyle bir ödül sistemi, beynin dopaminerjik tepkisine benzetildi, daha basitleştirildi.

Bir algoritmanın çırpma kuşu ilk kez ele geçirmesi değil: Stanford Üniversitesi bilgisayar bilimi öğrencilerinin daha önceki bir sınıfı, gece boyunca eğitim aldıklarında, puanının 0 borudan 1.600'e kadar yükseldiği bir program yarattı.