About: Multi-armed bandit

An Entity of Type: Thing, from Named Graph: http://dbpedia.org, within Data Space: dbpedia-live.demo.openlinksw.com

Reinforcement learning problem exemplifying the exploration–exploitation tradeoff

Property	Value
dbo:description	reinforcement learning problem exemplifying the exploration–exploitation tradeoff (en)
dbo:thumbnail	wiki-commons:Special:FilePath/Las_Vegas_slot_machines.jpg?width=300
dbo:wikiPageExternalLink	http://homes.di.unimi.it/~cesabian/Pubblicazioni/banditSurvey.pdf http://www.chrisstucchio.com/blog/2012/bandit_algorithms_vs_ab.html https://pavlov.tech/2019/03/02/animated-multi-armed-bandit-policies/ https://github.com/Nth-iteration-labs/contextual https://github.com/fmr-llc/mabwiser https://github.com/jkomiyama/banditlib https://feynmanlectures.caltech.edu/info/exercises/Feynmans_restaurant_problem.html http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html https://arxiv.org/abs/1508.03326 http://techtalks.tv/talks/54451/ http://techtalks.tv/talks/54455/ https://mloss.org/software/view/415/ http://bandit.sourceforge.net https://archive.today/20121212095047/http:/www.cs.washington.edu/research/jair/volume4/kaelbling96a-html/node6.html https://web.archive.org/web/20131211192714/http:/webdocs.cs.ualberta.ca/~sutton/book/the-book.html https://semanticscholar.org/paper/e4fe28113fed71999a0db30a930e0b42d3ce55f1 https://mpatacchiola.github.io/blog/2017/08/14/dissecting-reinforcement-learning-6.html
dbo:wikiPageWikiLink	dbr:Michael_Katehakis dbr:File:Framework_of_UCB-ALP_for_Constrained_Contextual_Bandits.jpg dbr:File:The_Jet_Propulsion_Laboratory_(9416811752).jpg dbr:Wikt:one-armed_bandit dbr:Medical_ethics dbr:Herbert_Robbins dbc:Machine_learning dbr:Machine_learning dbr:Random_forest dbr:Gittins_index dbr:Clinical_trial dbr:Optimal_stopping dbr:Probability_distribution dbr:Germany dbr:World_War_II dbc:Sequential_methods dbr:Probability_theory dbr:Markov_decision_process dbc:Stochastic_optimization dbr:Greedy_algorithm dbr:Pharmaceutical_industry dbr:Ridge_regression dbc:Sequential_experiments dbr:Portfolio_(finance) dbr:Thompson_sampling dbr:Open_source dbr:Collaborative_filtering dbr:R_(programming_language) dbr:Search_theory dbr:Peter_Whittle_(mathematician) dbr:Bulletin_of_the_American_Mathematical_Society dbr:Concept_drift dbr:Stochastic_scheduling dbr:Nonparametric_regression dbr:Bayes'_theorem dbr:Reinforcement_learning dbr:John_C._Gittins dbr:Softmax_function dbr:Annals_of_Applied_Probability dbr:Regret_(decision_theory) dbr:Asymptotic dbr:Slot_machines dbr:Iterated_prisoner's_dilemma dbr:Open-Source dbr:Gambler dbr:Adaptive_routing dbr:Condorcet_winner dbr:Voting_paradoxes dbr:Singular-value_decomposition dbr:File:Las_Vegas_slot_machines.jpg
dbp:wikiPageUsesTemplate	dbt:Citation dbt:Further dbt:Unreferenced_section dbt:Differentiable_computing dbt:Citation_needed dbt:Scholia dbt:Short_description
dct:subject	dbc:Machine_learning dbc:Metaphors_referring_to_body_parts dbc:Science_and_technology_during_World_War_II dbc:Sequential_methods dbc:Stochastic_optimization dbc:Sequential_experiments
gold:hypernym	dbr:Problem
rdfs:label	Multi-armed bandit (en) El problema de la màquina escurabutxaques (ca) Bandit manchot (mathématiques) (fr) Bandido multibrazo (es) 多腕バンディット問題 (ja) Багаторукий бандит (uk)
owl:sameAs	yago-res:Multi-armed bandit freebase:Multi-armed bandit wikidata:Multi-armed bandit dbpedia-fr:Multi-armed bandit dbpedia-ja:Multi-armed bandit dbpedia-es:Multi-armed bandit dbpedia-ca:Multi-armed bandit dbpedia-uk:Multi-armed bandit dbpedia-global:Multi-armed bandit dbr:Multi-armed bandit
prov:wasDerivedFrom	wikipedia-en:Multi-armed_bandit?oldid=1291683499&ns=0
foaf:depiction	wiki-commons:Special:FilePath/The_Jet_Propulsion_Laboratory_(9416811752).jpg wiki-commons:Special:FilePath/Framework_of_UCB-ALP_for_Constrained_Contextual_Bandits.jpg wiki-commons:Special:FilePath/Las_Vegas_slot_machines.jpg
foaf:isPrimaryTopicOf	wikipedia-en:Multi-armed_bandit
is dbo:knownFor of	dbr:Michael_Katehakis
is dbo:wikiPageDisambiguates of	dbr:Bandit_(disambiguation) dbr:Mab
is dbo:wikiPageRedirects of	dbr:Epsilon-greedy_strategy dbr:Multi-armed_bandit_problem dbr:Multi-armed_bandit_problem dbr:K-armed_bandit dbr:N-armed_bandit dbr:N_armed_bandit dbr:E-greedy_strategy dbr:Adversarial_bandit dbr:Bandit_(machine_learning) dbr:Bandit_model dbr:Bandit_problem dbr:Bandit_process dbr:Multi-arm_bandit dbr:Multi-armed_bandits dbr:Multi_armed_bandit dbr:Multiarmed_bandit dbr:Multi–armed_bandit dbr:Contextual_bandit_algorithm dbr:K_armed_bandit dbr:Approximate_solutions_of_the_multi-armed_bandit_problem dbr:Collaborative_bandit dbr:Two-armed_bandit dbr:Two_armed_bandit
is dbo:wikiPageWikiLink of	dbr:Michael_Katehakis dbr:Bretagnolle–Huber_inequality dbr:Metalearning_(neuroscience) dbr:Herbert_Robbins dbr:A/B_testing dbr:Online_machine_learning dbr:Gittins_index dbr:Slot_machine dbr:Vowpal_Wabbit dbr:UCB dbr:Recommender_system dbr:Design_of_experiments dbr:Bayesian_optimization dbr:Greedy_algorithm dbr:Thompson_sampling dbr:Bandit_(disambiguation) dbr:Search_theory dbr:Epsilon-greedy_strategy dbr:History_of_statistics dbr:Peter_Whittle_(mathematician) dbr:John_Langford_(computer_scientist) dbr:Mab dbr:Stochastic_scheduling dbr:Outline_of_machine_learning dbr:Creativity dbr:Medoid dbr:Wisdom_of_the_crowd dbr:Randomized_weighted_majority_algorithm dbr:Nicolò_Cesa-Bianchi dbr:Adaptive_design_(medicine) dbr:Glossary_of_artificial_intelligence dbr:Tsetlin_machine dbr:Reinforcement_learning dbr:Convergent_thinking dbr:List_of_statistics_articles dbr:Multi-armed_bandit_problem dbr:Dual_control_theory dbr:Dynamic_treatment_regime dbr:Reward-based_selection dbr:Tournament_solution dbr:Emilie_Kaufmann dbr:Probabilistic_numerics dbr:K-armed_bandit dbr:N-armed_bandit dbr:N_armed_bandit dbr:E-greedy_strategy dbr:Adversarial_bandit dbr:Nerd_sniping dbr:Bandit_(machine_learning) dbr:Bandit_model dbr:Bandit_problem dbr:Bandit_process dbr:Multi-arm_bandit dbr:Multi-armed_bandits dbr:Multi_armed_bandit dbr:Multiarmed_bandit dbr:Multi–armed_bandit dbr:Contextual_bandit_algorithm dbr:K_armed_bandit dbr:Approximate_solutions_of_the_multi-armed_bandit_problem dbr:Collaborative_bandit dbr:Two-armed_bandit dbr:Two_armed_bandit
is rdfs:seeAlso of	dbr:Design_of_experiments
is foaf:primaryTopic of	wikipedia-en:Multi-armed_bandit