Pekiştirmeli Öğrenme

Pekiştirmeli öğrenme, davranışçılıktan esinlenen, öznelerin bir ortamda en yüksek ödül miktarına ulaşabilmesi için hangi eylemleri yapması gerektiğiyle ilgilenen bir makine öğrenmesi yaklaşımıdır. Bu problem, genelliğinden ötürü oyun kuramı, kontrol kuramı, yöneylem araştırması, bilgi kuramı, benzetim tabanlı eniyileme ve istatistik gibi birçok diğer dalda da çalışılmaktadır.

Denetimli öğrenme ve denetimsiz öğrenme yöntemlerinden tamamen farklı olmamasına rağmen Takviyeli Öğrenme – Pekiştirmeli Öğrenme, insanların öğrenme şeklini taklit etmektedir.

Nasıl ki insanlar daha önce edindikleri bilgilerden yararlanarak ya da olağan süreçle karşılaştırmalar yaparak öğrenebiliyorsa, gerçek hayatta da doğduğumuz andan itibaren hem kendimiz hem de çevremizdekiler tarafından, çevre ve çevre ile etkileşime girerek öğreniriz. Bu etkileşimlerin sonuçlarını gözlemlemek. Makine öğrenimine geri dönersek, Makine Öğreniminin amacı, genellikle bir öğrenme aracı olarak adlandırılan öğrenme ve değişim süreci aracılığıyla akıllı programlar üretebilmektir. Takviyeli Öğrenme veya Takviyeli Öğrenme (RL), bu öğrenme süreci için düşünülebilecek bir yaklaşımdır.

Makine öğrenmesinde, ortam genellikle bir Markov karar süreci (MKS) olarak modellenir. Pekiştirmeli öğrenme, doğru girdi/çıktı eşleşmelerinin verilmemesi ve optimal olmayan eylemlerin dışarıdan düzeltilmemesi yönleriyle gözetimli öğrenmeden ayrışır.

Pekiştrimeli öğrenme diğer makina ve derin öğrenme yapılarından farklı olarak etiket içermeyen verilerden oluşur. Burada bir ajan (agent) ve bir ortam (environement) vardır. Ajan temel oalrak bu ortam hakkında gözlemde bulunur ve aksiyon gerçekleştirir. Ortam da bu ajana geri dönüt olarak ödül verir. Bu süreçte ajan için temel amaç ödülü maximize etmektir.

Temel adımlar şu şekildedir:

  • The agent observes an initial (login) state.
  • The action to be taken is determined by a decision-making function. This is called policy.
  • The action is performed.
  • The agent receives a scalar reward or reinforcement from the environment.
  • Information about this status and the reward for the action pair is recorded.

Ajan eğitim aşamasında bir sürü senaryo ile ortam içerisinde aksiyonlar gerçekleştirir. Bu aksiyonalrın sonuçlarına göre ortamda aldığı ödül ve cezalara göre kendini iyileştirir ve daha yüksek ödül için aksiyonalrda bulunur.

Pekiştirmeli Öğrenme, yoğun bir şekilde durum(state) kavramına dayanmaktadır. Politika ve değer fonksiyonunda girdi olarak kullanılırken; modelde ise hem girdi hem de çıktı olarak kullanılmaktadır.

Genelde oyun bazlı senaryolardan ortaya çıkmıştır. Ancak günümüzde bir çok probleme çözüm olarak pekiştirmeli öğrenme modelleri kullanılmaktadır.




Pekiştirmeli Öğrenme Örnekleri
Örnek 1:
Satranç oyuncusu hareket etmeye karar verdiğinde olası hamleleri ve karşı tepkileri planlar. Sezgisel yargılarla belirli pozisyonları ve hareketleri tanımlayın.
Örnek 2:
Bir mobil robot, daha fazla çöp toplamak için yeni bir odaya girip girmemeye karar verir. Bu karar, pilin mevcut şarj düzeyine ve geçmişte ne kadar hızlı ve kolay bir şarj cihazı bulabildiğinize bağlıdır.
Örnek 3:
Psikolojik olarak, bir karar verme sürecinde nasıl karar verdiğimizin ve bu kararların sonuçlarının öğrenmemizi sağlayıp sağlamadığının cevabını planlar.
Örnek 4:
Nörobilim açısından beyinde hangi bölgelerin yer aldığı ve bu bölgelerin birbiriyle nasıl ilişkili olduğu sorularına yanıtlar planlar.

Referanslar:

https://tr.wikipedia.org/wiki/Peki%C5%9Ftirmeli_%C3%B6%C4%9Frenme

https://yz-ai.github.io/blog/pekistirmeli-ogrenme/pekistirmeli-ogrenme-bolum-1

https://medium.com/deep-learning-turkiye/peki%C5%9Ftirmeli-%C3%B6%C4%9Frenmeye-giri%C5%9F-c7c2a8cce50b

https://www.muhendisbeyinler.net/pekistirmeli-ogrenme-reinforcement-learning-nedir/

https://imlab.io/2020/01/05/reinforcement-learning/

https://turkiye.ai/yapay-zeka-pekistirmeli-ogrenme-haline-gelecek/

Haberdar olun!

E-bültenimize kayıt olarak tüm yeniliklerimizden haberdar olabilirsiniz.

"Sisasoft İnternet Sitesi kullanım deneyiminizi kişiselleştirmek ve iyileştirmek için çerezler kullanıyoruz. Ziyaretinizi varsayılan ayarlarla gerçekleştirerek Sisasoft Gizlilik Politikası'da belirtilen şekilde çerezlerin kullanımını kabul etmiş oluyorsunuz."

0312 227 06 34