Parameter

تعداد پارامترهای یک مدل برابر تعداد مقادیر به کار رفته در آن است. این عدد برابر تعداد کل مقادیر ماتریس‌های وزن و بایاس یک شبکهٔ عصبی است. به طور مثال شبکه‌ای را در نظر بگیرید که یک لایهٔ ورودی X، دو لایهٔ میانی Z1 و Z2 و لایهٔ خروجی Z3 را دارد.

لایه ورودی شامل دو متغیر است:

X = [x_{1} x_{2}]

لایه میانی اول شامل یک متغیر وزن W1 و یک متغیر بایاس B1 است. لایهٔ میانی دوم هم ساختار مشابهی دارد.

W_{1} = w_{11} w_{21} w_{31} w_{12} w_{22} w_{32}, b_{1} = b_{11} b_{21} b_{31}

W_{2} = [w_{41} w_{42} w_{43}], b_{2} = b_{41}

که این لایه ورودی‌ها را تبدیل به ماتریس Z1‌ می‌کند و برای لایهٔ بعدی می‌فرستد:

Z_{1} = W_{1} X + b_{1} = w_{11} w_{21} w_{31} w_{12} w_{22} w_{32} [x_{1} x_{2}] + b_{11} b_{21} b_{31}

و در مرحلهٔ بعدی ماتریس Z2 تولید می‌شود که همان خروجی شبکهٔ عصبی است.

Z_{2} = W_{2} Z_{1} + b_{2} = [w_{41} w_{42} w_{43}] z_{11} z_{21} z_{31} + b_{41}

تعداد پارامتر‌های این شبکهٔ عصبی، برابر مقادیر ماتریس‌هاست:

ماتریس	تعداد پارامتر
W1	۶
B1	۳
W2	۳
B2	۱
مجموع	۱۳

اکثر مدل‌های پرکاربرد موجود، مقدار پارامتر خود را در انتهای نام مدل ذکر می‌کنند. مثلاً مدل Llama-3.1-8B دارای ۸ میلیارد پارامتر و مدل Qwen2.5-72B-Instruct دارای ۷۲ میلیارد پارامتر است. هر چقدر مقدار پارامتر بیشتر باشد، زمان و هزینهٔ بیشتری صرف اجرای آن می‌شود.

نمای گراف

بک‌لینک‌ها

کریستالین

Parameter

کریستالین

بک‌لینک‌ها