لگوریتم‌های اصلی پردازش زبان طبیعی

تصور کن متنی را باز می‌کنی؛ می‌خواهی بدانی موضوع اصلی چیست، چه اسامی و مکان‌هایی در آن آمده، یا حتی یک متن جدید براساس آن بنویسی. پردازش زبان طبیعی (NLP) دقیقا به کامپیوتر کمک می‌کند همین کارها را انجام دهد. در این پست، مهم‌ترین الگوریتم‌ها و ایده‌ها را به زبانی ساده و با مثال‌هایی که برای مخاطب فارسی‌زبان ملموس‌اند توضیح می‌دهیم.

چرا آشنایی با این الگوریتم‌ها مهم است؟

هر الگوریتم مثل ابزاری در جعبه‌ابزار است: بعضی‌ها برای فهم موضوع کلی خوب‌اند، بعضی‌ها برای پیدا کردن نام افراد یا مکان‌ها، و بعضی برای نوشتن متن جدید. وقتی بدانیم هر ابزار چه کاری را بهتر انجام می‌دهد، انتخاب درست برای مسئله‌مان ساده‌تر می‌شود.

۱ — تبدیل کلمه به عدد (نمایش یا embedding)

کامپیوتر فقط عدد می‌فهمد؛ باید کلمه را عددی کنیم:

Bag-of-Words / TF–IDF: مثل شمردن چندبار یک واژه در متن — ساده و کاربردی برای طبقه‌بندی خبرها یا ایمیل‌ها.

word2vec / GloVe / fastText: کلماتی که هم‌معنی یا هم‌زمینه‌اند در فضای برداری نزدیک‌اند — مثلاً «دکتر» و «پرستار» یا «معلم» و «آموزگار». fastText برای فارسی که صرف و پسوند/پیشوند دارد، اغلب بهتر عمل می‌کند چون به قطعات درونیِ کلمه هم نگاه می‌کند.

بردارهای زمینه‌ای (مثل BERT، ELMo): این‌ها می‌فهمند یک کلمه بسته به جمله چه معنی‌ای دارد. مثال فارسی خوب برای اینجا: کلمهٔ «شیر». در «یک لیوان شیر گذاشتم» منظور «شیرِ خوراکی» است، در «شیر باغ‌وحش را دیدم» منظور «شیرِ حیوان» است، و در «شیر آشپزخانه خراب است» منظور «شیرِ آب» است — همین تفاوت معنی را بردارهای زمینه‌ای به‌خوبی مدل می‌کنند.

۲ — مدل‌های مبتنی بر ترتیب کلمات (وقتی ترتیب مهم است)

در فارسی ترتیب و نشانه‌گذاری معنی را می‌سازند:

HMM و CRF: مدل‌های کلاسیک برای کارهایی مثل تعیین نقش کلمات یا شناسایی نام‌ها (مثلاً تشخیص اینکه «تهران» اسمِ مکان است).

RNN, LSTM, GRU: شبکه‌های عصبی که جمله را یکی‌یکی پردازش می‌کنند؛ کاربردشان در گذشته در ترجمه و تولید متن بود.

Seq2Seq + Attention: برای تبدیل یک جمله به جملهٔ دیگر (مثلاً ترجمه یا خلاصه). توجه (attention) کمک می‌کند مدل روی بخش‌های مهم متن «تمرکز» کند — برای مثال در ترجمهٔ جملهٔ فارسی «دیروز محمد به مدرسه رفت تا کتاب جدیدش را بگیرد» مدل متوجه می‌شود «کتاب جدیدش» بخشِ مورد توجه است.

۳ — ترنسفورمرها: قلبِ پیشرفت‌های جدید

ترنسفورمر‌ها امروز نقشی مرکزی دارند:

Transformer: به‌جای خواندن کلمه‌به‌کلمه، همهٔ واژه‌ها را هم‌زمان بررسی می‌کند و روابط بین آن‌ها را می‌سنجد.

مدل‌هایِ درکِ متن و تولیدِ متن: بعضی مدل‌ها در فهمِ متن قوی‌اند و بعضی در تولید متن. نتیجهٔ عملی: ابزارهایی که می‌توانند مطلبی فارسی را خلاصه کنند یا به سؤال جواب بدهند، یا متنی طبیعی تولید کنند.

۴ — توکن‌سازی (چطور متن را خرد کنیم)

تقسیم متن به واحدهای کوچک‌تر پیش‌نیاز همهٔ مدل‌هاست:

در فارسی باید دقت کنیم به «پسوندها/حروف اضافهٔ متصل» مثل «‌ام»، «‌ات»، «‌شان» و همچنین «ها» جمع، یا ترکیب‌هایی که با فاصله یا بدون فاصله نوشته می‌شوند. روش‌های توکن‌سازیِ زیرواحدی (مثل BPE یا WordPiece) کمک می‌کنند واژگان ناآشنا یا ترکیبی را بهتر مدیریت کنیم.

۵ — روش‌های کلاسیکِ طبقه‌بندی و بازگشتِ اطلاعات

برای پروژه‌های سبک یا وقتی منابع محدود است:

Naive Bayes: سریع و خوب برای تشخیص اسپم ایمیل یا دسته‌بندی متن‌های خبری.

SVM و Logistic Regression: وقتی از ویژگی‌هایی مثل TF–IDF استفاده می‌کنیم، این‌ها عملکرد خوبی دارند.

مثال روزمرهٔ فارسی: با TF–IDF + Naive Bayes می‌توانی صندوق نامه‌های خبری را به موضوعات «ورزشی»، «اقتصادی»، «محبوب» تقسیم کنی.

۶ — پارسینگ و درکِ ساختارِ جمله

برای فهم ساختارِ جمله و روابطِ نحوی:

الگوریتم‌های پارسینگ وابستگی کمک می‌کنند بفهمیم در جملهٔ فارسی «مریم کتاب را روی میز گذاشت»، «کتاب» مفعول است و «روی میز» قید مکان — این برای کارهایی مثل پاسخ‌گویی به سؤال و استخراج اطلاعات مفید است.

۷ — مدل‌سازی موضوع (کشف مباحث پنهان)

LDA: فرض کن یک مجموعه نقد فیلم داری؛ LDA می‌تواند موضوعاتِ تکرارشونده مثل «داستان»، «بازیگری»، «فیلم‌برداری» را پیدا کند تا راحت‌تر بفهمی دربارهٔ چه حرف می‌زنند.

۸ — تولید متن و خلاصه‌سازی

چطور کامپیوتر متن تولید یا خلاصه کند:

روش‌هایی مثل Beam Search یا Top-p sampling تعیین می‌کنند مدل هنگام تولید متن چطور از بین گزینه‌ها انتخاب کند.

مکانیزم‌هایی مثل Pointer/Copy وقتی لازم است اسم‌ها یا اعدادِ دقیقی از متن منبع در خروجی حفظ شوند (مثلاً در خلاصهٔ یک گزارش خبری).

مثال فارسی: خلاصه‌ساز باید در خروجیِ خبر، نام افراد و تاریخ‌ها را بدون خطا نگه دارد؛ برای این کار معمولاً از مکانیزم copy استفاده می‌شود.

۹ — دیگر مفاهیمِ مهم

تشخیص ارجاع (coreference): فهمیدن اینکه «او» به کدام شخص در متن اشاره دارد. مثلاً در «سارا به مادرش گفت او نگران است»، تشخیص اینکه «او» به سارا اشاره دارد یا مادرش.

مدل‌های چندزبانه: وقتی می‌خواهی یک مدل هم فارسی و هم زبان‌های دیگر را پوشش دهد.

ابزارها و ترفندهای آموزش: تنظیم‌گرها و تکنیک‌هایی مثل Adam، dropout و weight decay که کمک می‌کنند مدل‌های عصبی بهتر و پایدارتر آموزش ببینند.

جمع‌بندیِ عملی — چه زمانی چه چیزی را انتخاب کنیم؟

می‌خواهی موضوع کلی متن را بفهمی → بردارسازی + مدل‌های ساده یا LDA.

می‌خواهی نام‌ها/موجودیت‌ها را تشخیص دهی → از مدل‌های برچسب‌زنی (مثل CRF یا مدل‌های ترنسفورمری تنظیم‌شده) استفاده کن.

می‌خواهی متن را خلاصه یا ترجمه کنی → encoder–decoder ترنسفورمرها مناسب‌اند.

می‌خواهی متن طبیعی تولید کنی (مثلاً نوشتن خودکار خبر یا ادامهٔ داستان) → مدل‌های autoregressive (تولیدی) بهترند.

پروژه سبک و با منابع کم داری → Naive Bayes یا SVM با TF–IDF هنوز گزینه‌های اقتصادی و قابل اتکایی‌اند.

اگر دوست داری ادامه بدیم، می‌تونم برای پست بعدی یکی از این‌ها را آماده کنم:

نمونهٔ کد پایتون با ابزارهایی مثل Hugging Face یا spaCy برای یک وظیفهٔ مشخص (مثلاً تشخیص نام‌ها یا خلاصه‌سازی فارسی)،

راهنمای پیش‌پردازشِ متنِ فارسی (توکنایزرها، پاک‌سازی، مسائل مربوط به نیم‌فاصله و املاء)،

یا یک فلوچارت ساده برای انتخاب الگوریتم مناسب بر اساس مسئله‌ات.