معرفی و دسته‌بندی ابزارها

ابزارهای هوش مصنوعی در مدیوم‌های مختلف اعم از متن، تصویر، صدا و ویدئو به کمک انسان‌ها می‌آیند. یک راه برای دسته‌بندی این ابزارها بر اساس مدیوم ورودی و مدیوم خروجی آن‌هاست. مثلاً ابزار ChatGPT متن ورودی می‌گیرد و متن خروجی می‌دهد؛ یا ابزار Midjourney متن ورودی می‌گیرد و عکس خروجی می‌دهد؛ یا ابزار Suno متن ورودی می‌گیرد و صدا خروجی می‌دهد. بر این اساس، ابزارهای موجود در دسته‌های زیر قرار می‌گیرند:

  • متن به متن1
  • متن به تصویر2
  • متن به صدا
  • تصویر به متن3
  • تصویر به تصویر4
  • صدا به متن

۱. ابزارهای متن به متن

متن به متن

این دسته از ابزارها ورودی متن می‌گیرند و خروجی متنی تولید می‌کنند. معروف‌ترین ابزار این دسته ChatGPT است. از جمله ابزارهای دیگر این دسته می‌توان به Claude، Gemini و Llama اشاره کرد.

کارکرد ابزارهای متن به متن

کارکردهای اصلی ابزارهای مولد متن به متن در موارد زیر خلاصه می‌شود:

  • تولید محتوا
  • پردازش متن و خلاصه‌نویسی
  • برنامه‌نویسی
  • ترجمه

در ادامه نمونه‌هایی از این کارکردها آمده است.

تولید محتوا

یکی از اصلی‌ترین کارکرد این مدل‌ها، تولید متن از یک دستور اولیه است. به سادگی و فقط با یک دستور، این مدل‌ها می‌توانند چندین پاراگراف داستان، تحلیل یا محتوای مخصوص شبکه‌های اجتماعی تولید کنند.

ورودی

یک داستان کوتاه درباره فداکاری بنویس که شخصیت اول آن یک بچه اردک در مزرعه است.

پردازش متن و خلاصه‌نویسی

علاوه بر تولید متن، مدل‌های متن‌ب‌متن قابلیت پردازش متن را هم دارند. اعمالی مانند خلاصه‌سازی، تحلیل محتوا و تعیین نکات کلیدی متن از جمله کاربردهای این مدل‌هاست.

ورودی

این خبر را خلاصه کن. خروجی خبر باید به شکل ۵ تا ۱۰ بولت پوینت باشد. در انتها بنویس که از چه شخصیت‌هایی در این خبر نام برده شده است.

خبر مهم وزیر اقتصاد درباره تغییر نرخ سودبانکی/ تصمیم دولت پزشکیان اعلام شد

وزیر اقتصاد معتقد است که نرخ سود بانکی ۳۰ درصد منجر به ناترازی بیشتر، نقدینگی و تورم بیشتر و افت بازار سرمایه می‌شود. مشاور رییس‌جمهور هم نسبت به سودهای بانکی انتقاد دارد، لذا این احتمال وجود دارد که دولت چهاردهم در جهت کاهش سود بانکی اقدام کند.

به گزارش خبرگزاری خبرآنلاین، بالا بودن نرخ سود بانکی منجر به عواقب ناخوشایندی همچون کاهش تسهیلات بانکی، کاهش تولید ناخالص داخلی و در نتیجه کاهش رشد اقتصادی می‌شود. کارشناسان همواره نسبت به افزایش سود بانکی هشدار می‌دهند اما معمولا به عنوان داروی ضدتورم در دستور کار سیستم بانکی قرار دارد.

ایسنا نوشت: شورای پول و اعتبار، بهمن ماه سال گذشته حداکثر نرخ سود بانکی را ۲۲.۵ درصد اعلام کرد، اما به بانکها اجازه داده شد اوراق سپرده گواهی خاص با نرخ سود ۳۰ درصد منتشر کنند. در واقع نرخ سود بانکی عملا به ۳۰ درصد رسید.

عبدالناصر همتی ـ وزیر اقتصاد در مراسم معارفه رییس جدید سازمان بورس نسبت به بالا بودن نرخ سود بانکی انتقاد کرد و گفت: وقتی نرخ سود را بالا ببرید، فقط منجر به ناترازی بیشتر و نقدینگی و تورم بیشتر خواهد شد و البته بازار سرمایه را هم نابود می کند. معمولا در شرایط تورمی از افزایش نرخ سود برای کنترل تورم استفاده می‌شود؛ موضوعی که در سال‌های اخیر در برنامه های نظام بانکی قرار گرفته است.

همتی در این زمینه گفت: من به دوستان بانکی هم گفته ام، میدانیم برای کنترل تورم، در مقطع کوتاه، باید نرخ سود را افزایش دهیم. اما این برای موقعی است که بانک های ما تراز باشند و بانک مرکزی هم آنقدر قوی باشد که اگر بانکی یک مقدار از ضوابط نظارتی عدول کرد، با آن برخورد کند.

وزیر اقتصاد عنوان کرد: ما با بقیه ارکان تیم اقتصادی دولت همکاری داریم و خواهیم داشت که نرخ بهره را کنترل و در عین حال توجه ها را به سمت بازار سرمایه جلب کنیم چون می‌دانیم رسیدن به تأمین مالی غیرتورمی از طریق بازار سرمایه امکانپذیر است. معمولا به دنبال افزایش نرخ بهره، انتظارات تورمی بالا می رود. قیمت ارز هم افزایش پیدا می‌کند که اثرات تورمی برای تمامی بخش‌های اقتصادی دارد.

علی طیب‌نیا ـ مشاور رییس‌جمهور نیز مخالف افزایش سود بانکی است. او در این زمینه گفته است: افزایش نرخ بهره بانکی بدون هماهنگی، بازار سرمایه را منحرف می‌کند، چراکه بورس یک بازار آزاد است. با این اوصاف به نظر می رسد دولت چهاردهم قصد دارد نرخ سود بانکی را کنترل و در سوی دیگر، توجهات را به بازار سهام معطوف کند.

خروجی

  • وزیر اقتصاد نسبت به نرخ سود بانکی ۳۰ درصد انتقاد کرده و آن را باعث ناترازی، افزایش نقدینگی و تورم و افت بازار سرمایه می‌داند.
  • مشاور رییس‌جمهور نیز نسبت به افزایش سود بانکی انتقاد دارد و معتقد است این امر بدون هماهنگی، بازار سرمایه را منحرف می‌کند.
  • شورای پول و اعتبار بهمن سال گذشته حداکثر نرخ سود بانکی را ۲۲.۵ درصد اعلام کرد، اما بانک‌ها اوراق سپرده با سود ۳۰ درصد منتشر کردند.
  • افزایش نرخ سود بانکی به عنوان ابزاری برای کنترل تورم در سال‌های اخیر در دستور کار سیستم بانکی بوده است.
  • دولت چهاردهم احتمالاً در جهت کاهش نرخ سود بانکی و تمرکز بیشتر بر بازار سرمایه اقدام خواهد کرد.

شخصیت‌های نام برده شده:

  • عبدالناصر همتی (وزیر اقتصاد)
  • علی طیب‌نیا (مشاور رییس‌جمهور)

برنامه‌نویسی

یکی دیگر از کاربردهای مدل‌های متن‌به‌متن، تبدیل درخواست‌های کاربر به کدهای کامپیوتری در زبان‌های مختلف است. ویرایشگرهای متنی مثل Cursor یا سرویس‌هایی مثل Github Copilot از این دسته ابزارها هستند. کیفیت کد تولیدی توسط این ابزارها قانع‌کننده است. مثلاً سرویس‌هایی مثل Claude می‌توانند در چالش‌های برنامه‌نویسی شرکت کنند و موفق شوند. مثلاً با ورودی دادن مسألهٔ Two-Sum به Claude، این مدل کد زیر را به درستی برای حل مسأله خروجی می‌دهد:

خروجی

#include <vector>
#include <unordered_map>
 
class Solution {
public:
    std::vector<int> twoSum(std::vector<int>& nums, int target) {
        std::unordered_map<int, int> num_map;
        
        for (int i = 0; i < nums.size(); i++) {
            int complement = target - nums[i];
            
            if (num_map.find(complement) != num_map.end()) {
                return {num_map[complement], i};
            }
            
            num_map[nums[i]] = i;
        }
        
        // If no solution is found
        return {};
    }
};

ترجمه

یکی از قابلیت‌هایی که باعث استفاده گسترده‌تر از ابزارها می‌شود، فهم زبان‌های مختلف است. به دلیل استفاده از توکن‌ها در معماری مدل‌ها، تبدیل ورودی‌ها و خروجی‌ها به زبان‌های مختلف بسیار ساده است. البته که هزینهٔ ترجمه با مدل زبانی به مراتب بیشتر از ترجمه با مدل‌های کلاسیک مثل Google Translate است. پس بهتر است تنها به هنگام استفاده‌های ترجمه‌ای پیچیده به سراغ این مدل‌ها برویم.

ورودی

این شعر را به یک شعر انگلیسی ترجمه کن: ‌ ‌‌ ‌‌ ‌ می‌روم وز سر حسرت به قفا می‌نگرم ‌ خبر از پای ندارم که زمین می‌سپرم ‌ ‌‌ می‌روم بی‌دل و بی یار و یقین می‌دانم ‌ که من بی‌دل بی یار نه مرد سفرم ‌ ‌‌ ‌ خاک من زنده به تأثیر هوای لب توست ‌ سازگاری نکند آب و هوای دگرم

خروجی

I depart, yet with longing I glance back in despair,  
Unaware of my steps, as I tread upon the earth, unaware.

I go, heartless and alone, knowing it well,  
That without heart, without love, I am not one for this farewell.

My soul lives, nourished by the breath from your lips,  
No other air or clime can grant me life like this.

پاسخگویی

یکی دیگر از آورده‌های اصلی این مدل‌ها، دانش فراوانی است که در آن‌ها به صورت ضمنی آمده است. در برخی مدل‌های -مثل Bing یا Perplexity- با اتصال به اینترنت، این دانش توسعه پیدا می‌کند. علاوه بر دانش موجود در سطح وب، امکان آموزش مجدد مدل‌ها برای همگام‌سازی آن‌ها با نیازهای خاص هم وجود دارد. مثلاً یک فروشگاه می‌تواند فهرستی از اقلام و قیمت‌های خود را در اختیار مدل بگذارد تا به عنوان کارشناسی فروش با مشتری‌های احتمالی وارد گفتگو شود.

ورودی

عکس‌های آرشیو کاخ گلستان در چه تاریخی لو رفت و شامل چند تصویر بود؟

خروجی

آرشیو کاخ گلستان که شامل بیش از ۳۲۰۰ عکس از دوران قاجار بود، در خرداد ۱۴۰۳ توسط یک فرد ناشناس به‌صورت رایگان در فضای مجازی منتشر شد. این تصاویر عمدتاً مربوط به دوره ناصرالدین شاه و مظفرالدین شاه هستند و به مجموعه‌ای به نام «آلبوم‌های سایه» تعلق دارند. این تصاویر نادر شامل عکس‌های مختلفی از اعضای دربار، بناها، مناظر و حتی زندانیان سیاسی آن زمان است. انتشار این آلبوم‌ها باعث واکنش‌های گسترده در شبکه‌های اجتماعی و توجه علاقه‌مندان به تاریخ و هنر شد. این عکس‌ها پیش از این در دسترس عموم قرار نداشتند و قرار بود به‌صورت رسمی منتشر شوند، اما پیش از آن، لو رفتند و به شکل غیررسمی در اینترنت پخش شدند​(روزنامه هفت صبح)​(Euronews)​(همشهری آنلاین).

۲. ابزارهای متن به تصویر

متن به تصویر

این دسته از ابزارها ورودی متن می‌گیرند و خروجی تصویری تولید می‌کنند. معروف‌ترین ابزارهای این دسته Dall-E و Nightcafe هستند. علاوه بر این ابزارها، مدل‌های متن‌بازی مانند Stable Diffusion و Flux هم وجود دارند که قابلیت فاین‌تیونینگ و اجرای محلی5 آن‌ها وجود دارد.

کارکرد ابزارهای متن به تصویر

کارکردهای اصلی ابزارهای مولد متن به تصویر در موارد زیر خلاصه می‌شود:

  • تولید محتوا
  • ایده‌پردازی

در ادامه نمونه‌هایی از این کارکردها آمده است.

تولید محتوا

شاید اصلی‌ترین کاربرد مدل‌های متن به تصویر، پوشش نیازهای محتوایی تولیدکنندگان است. آن‌ها می‌توانند بدون یادگیری تکنیک‌های خلق تصویر، تنها با توصیف آن به خروجی مدنظر خودشان اعم از پوستر، عکس، لوگو و نقاشی برسند.

ورودی

painting, Studio shot of a Gorgeous Welcoming slender Chilean Male as The Godfather movie character, he is feeling very insecure, the Male is Frolicking in a Slovenia, he is wearing his Cromulent Lyrical Abstraction fashion style Wide-brimmed hat, his hair is Homeric and styled as Slicked-back, the Male has a Intuitive Three-Eyed, dense nature with Dogwood, Bathed in shadows, horizon-centered, Movie still, Evil, Cubism, key light, macro lens, Velvia, pale skin, photo-realistic face

خروجی مدل Flux Pro

ایده‌پردازی

علاوه بر افرادی که سر از گرافیک درنمی‌آورند، مدل‌های متن به تصویر به خود تصویرگران و گرافیست‌ها نیز کمک می‌کنند. این کمک‌ها می‌تواند از جنس ایده دادن دربارهٔ حالات شخصیت‌ها، چهره، لباس و طراحی محیط باشد.

ورودی

A character sheet of a tall young samurai in different poses and angles, including front view, side view, and back view

خروجی مدل Flux Dev

ورودی

wide shot photography of a mountain-side Iranian city with a waving Iran flag, lush plants growing in harmony with the buildings, golden hour photography, 4k masterpiece

خروجی Flux Schnell

۳. ابزارهای متن به صدا

متن به صدا

این دسته از ابزارها ورودی متن می‌گیرند و خروجی صوتی می‌سازند. درست مثل کسی که از روی کتاب می‌خواند.

کارکرد ابزارهای متن به صدا

کارکردهای اصلی ابزارهای مولد متن به صدا در موارد زیر خلاصه می‌شود:

  • متن‌خوانی
  • دستیار شخصی

در ادامه نمونه‌هایی از این کارکردها آمده است.

متن‌خوانی

با فعالیت چندسالهٔ سرویس‌های کتاب صوتی، حالا داده‌های مناسبی از تطبیق صوت و متن ایجاد شده است و صاحبان این پلتفرم‌ها سرویس‌هایی برای خواندن متون توسعه داده‌اند. مثلاً پلتفرم فیدیبو سرویسی به نام راوی توسعه داده است که کتاب را برای کاربر می‌خواند. البته که کیفیت این سرویس در حال حاضر حتی نزدیک به گویندگان انسان هم نیست؛ اما به مرور امکان بهبود آن وجود دارد. در سطح جهانی هم سرویس‌هایی مثل Eleven Labs روی تبدیل متن به صدای انسان و سرویس‌هایی مانند Suno بر روی تبدیل متن به آهنگ کار می‌کنند.

ورودی: شعر ترجمه شدهٔ سعدی در بخش متن‌به‌متن

I depart, yet with longing I glance back in despair,  
Unaware of my steps, as I tread upon the earth, unaware.

I go, heartless and alone, knowing it well,  
That without heart, without love, I am not one for this farewell.

My soul lives, nourished by the breath from your lips,  
No other air or clime can grant me life like this.

خروجی Suno

دستیار شخصی

از زمان معرفی Siri بر روی تلفن‌های همراه اپل، دستیارهای شخصی صوتی توسعه یافته‌اند. اکنون با اتصال این دستیارها به مدل‌های پایه، دایرهٔ اقدامات آن‌ها چندبرابر شده است. آن‌ها بیشتر می‌فهمند و دست بازتری در اعمال تغییرات در فضای سیستم‌عامل را دارند.

۴. ابزارهای تصویر به متن

تصویر به متن

کارکرد ابزارهای تصویر به متن

کارکردهای اصلی ابزارهای مولد تصویر به متن در موارد زیر خلاصه می‌شود:

  • تشخیص محیط و اشیاء
  • کپشن زدن

در ادامه نمونه‌هایی از این کارکردها آمده است.

تشخیص محیط و اشیاء

این کارکرد در سطح مصرف‌کنندهٔ عادی به کمک نابینایان و کم‌بینایان می‌آید. آن‌ها می‌توانند با اتصال یک دوربین کوچک به خود، از محیط دوروبر خود آگاه باشند. در سطح کسب‌وکارها، این مدل‌ها می‌توانند به خودروها و دوربین‌ها در شناسایی محیط اطراف خود کمک کنند. مدل‌های موجود علاوه بر توصیف عکس، توانایی پاسخ به پرسش‌های مطرح شده از عکس را هم دارند. در حال حاضر این مدل‌ها با پسوند Vision قابل یافتن هستند. مثل مدل Llama-3.2-11B-Vision. این مدل‌ها علاوه بر تشخیص جزئیات تصاویر، توانایی تشخیص مناسب یا نامناسب بودن محتوای آن‌ها را دارند.

ورودی

خروجی مدل Blip

Caption: a flag flying in front of a hillside town

خروجی مدل Blip در پاسخ به سؤال What country does the flag represent

Answer: iran

کپشن‌زدن

یک حالت جزئی‌تر و مهم از تشخیص اشیاء و محیط، تولید کپشن برای عکس‌هاست. این کپشن‌ها در جاهای مختلفی به کار می‌آیند. مثلاً برای آموزش مدل‌ها، بهتر است عکس‌های ورودی تا جای ممکن توصیف شده باشند. یک فایدهٔ دیگر کپشن، کمک به یافتن داده‌های عکس است. زمانی که عکس‌ها یک مابه‌ازای متنی داشته باشند، جستجو هم ساده‌تر می‌شود. به همین خاطر این سرویس می‌تواند به کمک آژانس‌های عکس یا خبرگزاری‌هایی بیاید که انبوهی از عکس‌های ارزشمند اما طبقه‌بندی‌نشده دارند.

۵. ابزارهای تصویر به تصویر

تصویر به تصویر

کارکرد ابزارهای تصویر به تصویر

کارکرد اصلی ابزارهای مولد تصویر به تصویر به طور کلی ویرایش عکس است. ویرایش حالات مختلفی دارد. یک حالت پرطرفدار آن ویرایش بخشی از عکس است که با کمک inpainting انجام می‌شود. در این حالت کاربر بخشی از عکس را مشخص می‌کند و یک دستور مخصوص ویرایش همان بخش می‌نویسد. مدل تلاش می‌کند در همان بخش مشخص تغییرات را اعمال کند.

یک حالت دیگر ویرایش عکس، تبدیل طرح‌های اولیه به خروجی نهایی است. مثال پایین از معماری یک نمونه از تکمیل عکس است.

حالت دیگر، تقلید سبک در تولید عکس است. کارکرد تقلید سبک، در ایجاد یک هویت بصری واحد است.

۶. ابزارهای صدا به متن

صدا به متن

کارکرد ابزارهای صدا به متن

کارکرد اصلی ابزارهای مولد صدا به متن پیاده‌سازی صدای انسان است. هر جایی مثل جلسه‌های تیمی، پادکست یا سخنرانی‌ها که صدا مدیوم انتقال پیام است، این ابزارها یک خروجی متنی برای ما می‌سازند. در حال حاضر مدل Whisper از کمپانی OpenAI در این زمینه پیشتاز است و از زبان فارسی هم پشتیبانی می‌کند.

ورودی

خروجی مدل Whisper

the little tales they tell are false the door was barred locked and bolted as well ripe pears are fit for a queen's table a big wet stain was on the round carpet the kite dipped and swayed but stayed aloft the pleasant hours fly by much too soon the room was crowded with a mild wab the room was crowded with a wild mob this strong arm shall shield your honour she blushed when he gave her a white orchid the beetle droned in the hot june sun the beetle droned in the hot june sun

ترکیب ابزارها و ساختن جریان کار

آنچه این ابزارها را کاربردی‌تر و آمادهٔ استفادهٔ کاربران عادی می‌کند، ساختن جریان کار یا همان Workflow است. آورده اصلی تیم‌های نرم‌افزاری، توسعهٔ جریان‌های کاری است؛ چرا که مدل‌ها موجودند و فقط نیاز است کسی آن‌ها را با درخواست بازار هماهنگ کند. جریان کار ترکیبی از بلوک‌هاست که با اعمال تغییرات ورودی را به خروجی مناسب تبدیل می‌کند. درست مثل تبدیل شدن گندم به نان.

یک مثال واقعی از جریان کار در هوش مصنوعی، تهیه خلاصه از پادکست‌هاست. در این حالت یک بلوک صدابه‌متن صوت را پیاده می‌کند و تحویل بلوک متن‌به‌متن می‌دهد. این بلوک متن را خلاصه و نکات مهم آن را استخراج می‌کند. خروجی بلوک دوم در اختیار بلوک متن‌به‌صدا قرار می‌گیرد تا یک خلاصهٔ صوتی از پادکست در اختیار مخاطبان قرار بگیرد.

یک مثال دیگر از جریان کار، تولید وب‌سایت حول یک محتوای مشخص است. در ابتدا با کمک بلوک متن‌به‌متن ایده‌های اصلی مطالب نوشته می‌شود. در گام بعدی ایده‌ها دوباره تحویل مدل متن‌به‌متن داده می‌شود تا مطلبی دربارهٔ آن‌ها نوشته شود. به طور موازی، ایده‌ها در اختیار مدل متن‌به‌تصویر قرار می‌گیرند تا تصویری مناسب برای هدر مطلب ساخته شود. تصاویر ساخته شده با کمک مدل تصویر‌به‌تصویر بهینه‌سازی می‌شوند. تا در نهایت با ترکیب این خروجی‌ها، سایت آماده گردد.

نقش عامل انسانی در ترکیب

بازبینی انسانی

محدودیت مدل‌های موجود باعث می‌شود که امکان خطا در تولید خروجی وجود داشته باشد. به همین خاطر گاهی در فرآیند نیاز به بازبینی انسانی وجود دارد و بلوک «بازبینی انسانی» هم به عنوان بلوکی هم‌تراز باقی بلوک‌ها، در جریان‌های کار پیچیده ظاهر می‌شود. البته که به دلیل محدودیت سرعت در بازبینی، تا جای ممکن استفاده از این بلوک توصیه نمی‌شود. اما بهتر است در شرایط حساس، در حد یک نیم‌نگاه از عامل انسانی استفاده شود.

مثلاً جریان کاری برای خلاصه‌سازی اخبار به صورت هفته‌به‌هفته تعریف شده است. درطی این جریان مدل متن‌به‌متن بعد از دریافت اخبار از سرویس‌های جمع‌آوری داده، آن‌ها را به ترتیب اهمیت ردیف می‌کند و ۵ مورد اول را خروجی می‌دهد. بعد از این یک سرویس متن‌به‌تصویر فراخوانی می‌شود تا برای ردیف اول تصویری طراحی کند. در این حالت بهتر است قبل از انتشار عکس و اخبار مهم، یک عامل انسانی آن‌ها را بازبینی کند تا از اهمیت اخبار و متناسب بودن عکس با اخبار اطمینان حاصل شود.

Footnotes

  1. txt2txt

  2. txt2img

  3. img2txt

  4. img2img

  5. Local