Home

About

Advanced Search

Browse by Discipline

Scientific Societies

E-print Alerts

Add E-prints

E-print Network
FAQHELPSITE MAPCONTACT US


  Advanced Search  

 
Compromis exploration-exploitation et theorie des jeux
 

Summary: Compromis exploration-exploitation
et th´eorie des jeux
1 UCB vs -greedy
Question 1. Comparer l'efficacit´e des algorithmes UCB et -greedy avec
fixe ou inversement proportionnel au temps.
On pourra par exemple consid´erer des jeux d'horizon n = 200, des explo-
rations -greedy pour = 0, = 0.05, = 0.1, = 0.2, = 1/t, = 2/t,
= 4/t au temps t, des UCB pour diff´erentes constantes d'exploration dans
les conditions suivantes :
­ un bandit `a 2 bras de distributions B(0.6) et B(0.5) (o`u B(p) d´esigne
la distribution de Bernoulli de param`etre p),
­ un bandit `a 3 bras de distributions B(0.6), B(0.5) et B(0.5),
­ un bandit `a 5 bras de distributions B(0.8), B(0.6), B(0.4), B(0.2) et
B(0).
2 Equilibre de Nash
Dans la th´eorie des jeux, l'´equilibre de Nash est une situation dans laquelle
aucun des joueurs n'a int´er^et `a changer de strat´egie. Nous allons calculer un
´equilibre de Nash dans un jeu `a deux joueurs similaire `a celui d'un t^ete-`a-t^ete
au poker `a ench`eres limit´ees. On consid`ere un jeu `a C cartes : C = {1, . . . , C}.
Au d´ebut de chaque partie (pour t = 1, ..., n), chaque joueur met un euro

  

Source: Audibert, Jean-Yves - Département d'Informatique, École Normale Supérieure

 

Collections: Computer Technologies and Information Sciences