یادگیری تقویتی با بازخورد انسانی1، نام تکنیکی برای افزایش دقت مدلهای موجود است. در فرآیند این تکنیک، عاملی انسانی در بخش انتشار معکوس به کمک مدل میآید تا درستی یا غلطی خروجی را تعیین کند. درست مثل یک معلم که با تصحیح امتحان، اشتباهات شاگردان را به آنها یادآوری میکند تا در آینده مرتکب آنها نشوند.
Footnotes
-
Reinforcement Learning From Human Feedback ↩