Foghlaim atreisithe ó aiseolas ón duine

I meaisínfhoghlaim, is teicníc í Foghlaim Atreisithe ó Aiseolas ón Duine (FAAD) a thraenálann "samhail luaíochta" go díreach ó aiseolas an duine agus a úsáideann é mar fheidhm luaíochta chun beartas gníomhaire a bharrfheabhsú, ag baint úsáide as foghlaim atreisithe (FA) a úsáid.[1][2] Is féidir le FAAD diongbháilteacht agus taiscéalaíocht gníomhairí FA a fheabhsú, go háirithe nuair a bhíonn an fheidhm luaíochta gann nó torannach.[3]

Féach freisin cuir in eagar

Tagairtí cuir in eagar

  1. Ziegler (2019). "Fine-Tuning Language Models from Human Preferences". 
  2. Lambert. “Illustrating Reinforcement Learning from Human Feedback (RLHF)”. huggingface.co. Dáta rochtana: 4 March 2023.
  3. MacGlashan (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70: 2285–2294. JMLR.org.