Type of machine learning where an agent learns how to behave in an environment by performing actions and receiving rewards or penalties in return, aiming to maximize the cumulative reward over time
type of machine learning where an agent learns how to behave in an environment by performing actions and receiving rewards or penalties in return, aiming to maximize the cumulative reward over time (en)
যন্ত্রীয় শিখনের উপক্ষেত্র যেখানে পুরস্কার ও শাস্তি প্রদান ব্যবস্থার মাধ্যমে কোনও প্রচেষ্টা ও ত্রুটি সংশোধন-ভিত্তিক অ্যালগোরিদমকে সঠিক সিদ্ধান্ত গ্রহণের প্রশিক্ষণ প্রদান করা হয় (bn)
campo del aprendizaje automático (es)
metodo de maŝina lernado (eo)
område inom maskininlärning (sv)
polje mašinskog učenja (bs)
sous domaine de l'apprentissage automatique (fr)
technika strojového učení (cs)
一种从动物学习、参数扰动、自适应控制等理论发展而来,利用奖惩机制的学习方法 (zh)
状態を観測して取るべき行動を決定する問題を扱う機械学習の一種 (ja)
Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbständig eine Strategie erlernt, um erhaltene Belohnungen zu maximieren (de)
kategorija metod strojnega učenja, pri katerih se agent avtonomno uči strategije za maksimiranje prejetih nagrad (sl)