یادگیری تقویتی با بازخورد انسانی1، نام تکنیکی برای افزایش دقت مدل‌های موجود است. در فرآیند این تکنیک، عاملی انسانی در بخش انتشار معکوس به کمک مدل می‌آید تا درستی یا غلطی خروجی را تعیین کند. درست مثل یک معلم که با تصحیح امتحان، اشتباهات شاگردان را به آن‌ها یادآوری می‌کند تا در آینده مرتکب آن‌ها نشوند.

Footnotes

  1. Reinforcement Learning From Human Feedback