| | |
Summary: 1
Exercice 1 ("Anytime policy")
Nous nous plaçons dans le cadre de la prédiction séquentielle avec avis d'experts : les obser-
vations sont notées y1, y2, . . . A la date t, l'agent doit prendre une décision dt connaissant
les décisions f1,t, . . . , fi,t, . . . , fK,t proposées par K experts
tout le passé (les ys pour 1 s < t et les décisions passées des experts fi,s pour
1 s < t et 1 i K).
La perte instantanée encourue au temps t est (yt, dt) [0, 1]. On considère la stratégie S
à poids exponentiels définie par : avec probabilité
pi,t =
exp(-tLi,t-1)
K
k=1 exp(-tLk,t-1)
,
la décision choisie est dt = fi,t, où t = 4 log K
t .
Le regret de S après n étapes est
Rn =
n
t=1
|