زمانی که یک جمله یا عبارت را برای پردازش به مدلها میدهیم، مدل پیش از پردازش کلیت آن، به بخشهای کوچکتری تقسیمش میکند. به این بخشهای کوچک توکن میگویند. مثلاً جملهٔ «خود من آبی است» به توکنهای «خودکار»، «من»، «آبی» و «است» تبدیل میشود. بسته به الگوریتم تبدیل متن به توکن، ممکن است کلمات مشتق یا مرکب هم در این فرآیند توکنهای مجزایی تولید کنند. مثلاً «خودکار» به «خود» و «کار» تبدیل شود.
بعد از شکستن جمله، هر توکن تبدیل به مابهازای عددی مخصوص خود در مدل شده و به عنوان ورودی به شبکهٔ عصبی تحویل داده میشود.