تعداد پارامترهای یک مدل برابر تعداد مقادیر به کار رفته در آن است. این عدد برابر تعداد کل مقادیر ماتریسهای وزن و بایاس یک شبکهٔ عصبی است. به طور مثال شبکهای را در نظر بگیرید که یک لایهٔ ورودی X، دو لایهٔ میانی Z1 و Z2 و لایهٔ خروجی Z3 را دارد.
لایه ورودی شامل دو متغیر است:
لایه میانی اول شامل یک متغیر وزن W1 و یک متغیر بایاس B1 است. لایهٔ میانی دوم هم ساختار مشابهی دارد.
که این لایه ورودیها را تبدیل به ماتریس Z1 میکند و برای لایهٔ بعدی میفرستد:
و در مرحلهٔ بعدی ماتریس Z2 تولید میشود که همان خروجی شبکهٔ عصبی است.
تعداد پارامترهای این شبکهٔ عصبی، برابر مقادیر ماتریسهاست:
ماتریس | تعداد پارامتر |
---|---|
W1 | ۶ |
B1 | ۳ |
W2 | ۳ |
B2 | ۱ |
مجموع | ۱۳ |
اکثر مدلهای پرکاربرد موجود، مقدار پارامتر خود را در انتهای نام مدل ذکر میکنند. مثلاً مدل Llama-3.1-8B
دارای ۸ میلیارد پارامتر و مدل Qwen2.5-72B-Instruct
دارای ۷۲ میلیارد پارامتر است. هر چقدر مقدار پارامتر بیشتر باشد، زمان و هزینهٔ بیشتری صرف اجرای آن میشود.