زمانی که یک جمله یا عبارت را برای پردازش به مدل‌ها می‌دهیم، مدل پیش از پردازش کلیت آن، به بخش‌های کوچک‌تری تقسیمش می‌کند. به این بخش‌های کوچک توکن می‌گویند. مثلاً جملهٔ «خود من آبی است» به توکن‌های «خودکار»، «من»، «آبی» و «است» تبدیل می‌شود. بسته به الگوریتم تبدیل متن به توکن، ممکن است کلمات مشتق یا مرکب هم در این فرآیند توکن‌های مجزایی تولید کنند. مثلاً «خودکار» به «خود»‌ و «کار»‌ تبدیل شود.

بعد از شکستن جمله، هر توکن تبدیل به مابه‌ازای عددی مخصوص خود در مدل شده و به عنوان ورودی به شبکهٔ عصبی تحویل داده می‌شود.