Reinforcement Learning from Human Feedback (RLHF) for Human–AI Collaboration

Type de contrat

Offre de stage

Temps de travail

Temps plein

Rémunération

4.35€ / heure

Fonction

Stagiaire

L’objectif de ce stage est d’explorer l’apprentissage par renforcement à partir du feedback humain (RLHF) dans un contexte coopératif. Plutôt que d’apprendre uniquement à partir des récompenses de l’environnement, la politique de l’agent sera influencée par le feedback d’un partenaire humain lors de la collaboration. Plus précisément, le coéquipier humain pourra attribuer des récompenses positives ou négatives en fonction de l’utilité, de l’efficacité ou de l’intuition perçue des actions de l’agent durant la tâche conjointe. Le stagiaire étudiera comment ce type de feedback influence la stabilité de l’apprentissage, la performance de l’équipe et la fluidité perçue.