RLHF

یادگیری تقویتی با بازخورد انسانی¹، نام تکنیکی برای افزایش دقت مدل‌های موجود است. در فرآیند این تکنیک، عاملی انسانی در بخش انتشار معکوس به کمک مدل می‌آید تا درستی یا غلطی خروجی را تعیین کند. درست مثل یک معلم که با تصحیح امتحان، اشتباهات شاگردان را به آن‌ها یادآوری می‌کند تا در آینده مرتکب آن‌ها نشوند.

Reinforcement Learning From Human Feedback ↩

نمای گراف

بک‌لینک‌ها

🔮 کریستالین

RLHF

🔮 کریستالین

مطالب

بک‌لینک‌ها

نمای گراف

بک‌لینک‌ها

🔮 کریستالین

RLHF

Footnotes

🔮 کریستالین

مطالب

بک‌لینک‌ها