ابزارهای پیش پردازش متن فارسی

هدف این ابزار، تمیز و مرتب کردن متن و یکسان‌سازی کاراکترها با جایگزین کردن کاراکترهای استاندارد در متن ورودی است. در واقع قبل از پردازش متون جهت استانداردسازی (و یکسان‌سازی) حروف و فاصله‌ها بایستی پیش‌پردازش‌هایی روی آنها انجام شود. در واقع در این مرحله بایستی همه‌ی نویسه‌های (حروف) متن با معادل استانداردشان جایگزین گردند.
در ابزار طراحی شده و موجود در سامانه متن کاوی، حدود هزار کاراکتر (حرف) با معادل صحیح آن در صفحه کلید استاندارد فارسی جایگزین می‌شود.
سپس مطابق با یک سری قاعده دقیق و مشخص، فاصله‌ها و نیم‌فاصله‌های موجود در متن برای وندهای غیرچسبان (در انتهای لغات) و همچنین پیشوندها و پسوندهای فعل‌ساز و موارد مشابه نیز اصلاح می‌گردند.

هدف این ابزار شخیص جملات را در متن ورودی است. به عبارت دیگر جداسازی جملات ساده و مرکب (غیرتودرتو) و واژه‌ها و عبارات خاص (توکن‌ها) از یکدیگر هست. ابزار تشخیص‌دهنده‌ی جملات با استفاده از علامت‌های پایانی جمله و بکارگیری برخی دستورات گرامری زبان فارسی و در نظرگرفتن حروف ربط و برخی لغات آغاز کننده‌ی جملات مرکب، مرز جمله‌ها را تعیین می‌نماید.
تشخیص‌دهنده‌ی لغات (توکن) نیز با استفاده از الگوی کلمات و عبارات خاص و در نظر گرفتن اصلاحات اعمال شده در مورد پیشوندها و پسوندها در فاز قبلی، واحدهای با معنی مانند واژه‌ها را شناسایی می‌نماید. در ابزار طراحی شده و موجود در سامانه متن کاوی، علاوه بر شناسایی واژه‌ها، پردازش ویژه‌ای برای درنظر گرفتن توکن واحد برای کلمات اختصاری، تاریخ و زمان، اعداد اعشاری، آدرس صفحات وب، ایمیل و سایر عبارات و علائم خاص انجام می‌شود.

هدف الگوریتم‌های ریشه‌یابی، حذف وندهای کلمات (پیشوند و پسوندها) و تعیین ریشه اصلی کلمه هستند.
در روش‌های ریشه‌یابی رایج در زبان فارسی، بعد از حذف انواع وندها (اشتقاقی، تصریفی و واژه‌بست) ممکن است معنای کلمه تغییر یابد. ولی در بُن‌واژه‌یاب (یا Lemmatizer) تولید شده در سامانه متن کاوی (text-mining.ir) سعی در ریشه‌یابی کلمه بدون تغییر مفهوم اصلی کلمه در جمله شده است. همچنین الگوریتم ارائه شده قابلیت تعیین ریشه در چند سطح را دارد. این سطوح مختلف ریشه می‌توانند در کاربردهای مختلف پردازش زبان طبیعی مورد استفاده قرار گیرند. در ریشه‌یاب موجود در سامانه متن کاوی از دو رویکرد مبتنی بر فرهنگ لغات و قواعد ریخت‌شناسی بهره گرفته شده است. برای این ابزار از پنج فرهنگ لغت مختلف استفاده شده است.

یکی از مشکلات رایج در پردازش متون نظرات وجود کلمات به شکل غیر رسمی (محاوره‌ای) و عبارات اختصاری برای سادگی در نگارش متن نظر می‌باشد. درک معنای این‌گونه کلمات برای انسان کار راحتی است در حالیکه در پردازش خودکار ماشینی متون، وجود این عبارات مشکل‌ساز خواهد بود. لذا سعی می‌شود در فاز پیش‌پردازش این‌گونه عبارات با شکل رسمی و صحیح آنها (که مطابق با پیکره‌های متن رسمی، لغت‌نامه‌ها و سایر دانش‌نامه‌ها موجود است) جایگزین شود.
برای این‌منظور مشابه ریشه‌یاب طراحی شده، کلمات به دو گروه فعل و غیر فعل تقسیم شده و در هر گروه وندهای (پیشوند و پسوند) کلمات و ریشه (بُن) کلمه بصورت مجزا بوسیله مجموعه‌ای از قوانین بررسی می‌شوند. همچنین برای ریشه (بُن) کلمات در هر دو گروه کلمات لیستی از کلمات و اختصارات که حالت استثنا دارند، استفاده شده است.

با بررسی اولیه متون شبکه‌های اجتماعی و نظرات می‌توان پی برد که علاوه بر مشکلات مربوط به شکل اختصاری یا محاوره‌ای کلمات، غلط‌های املایی زیادی سهواً یا عمداً (برای راحتی در نگارش) در متون زبان فارسی وجود دارد. هدف از تولید این ابزار تصحیح خودکار خطاهای املایی ناشی از تایپ اشتباه کلمات در متون می‌باشد. بدین منظور به ازای کلمات بدون مفهوم، شبیه‌ترین کلمه از نظر املایی و تحلیل‌های آماری جایگزین آن خواهد شد.

برچسب‌­زنی نقش ادات سخن عمل انتساب برچسب­‌های نحوی (از قبیل اسم، انواع صفت، انواع قید، نوع فعل، انواع حروف و …) به واژه­‌ها و نشانه­‌های تشکیل دهنده یک متن است به صورتی که این برچسب‌­ها نشان دهنده نقش کلمات و نشانه­‌ها در جمله باشند. در زبان فارسی اغلب کلمات دارای نقشی واحد در جملات مختلف هستند. سایر واژگان از نقطه نظر برچسب­‌زن نحوی دارای ابهام هستند، زیرا ممکن است کلمات در جایگاه­‌های مختلف در جمله، برچسب­‌های نحوی متفاوتی داشته باشند. بنابراین برچسب‌زنی نحوی، عمل ابهام‌زدایی از برچسب­‌ها با توجه به زمینه (ساختار جمله) مورد نظر است.
ابزار تهیه شده برای برچسب‌گذاری نقش ادات سخن در متون فارسی، از پیکره برچسب خورده و از ترکیب دو رویکرد یادگیری ماشین و برچسب‌گذاری مبتنی بر قاعده استفاده می‌نماید.

کار این ابزار حذف علائم، اعداد و کلمات عمومی و بدون ارزش معنایی (از قبیل: از، در، با، به، است، پس، …) در جمله است.
در بسیاری از کاربردهای بازیابی اطلاعات، حذف لغات کم‌اهمیت (توقف یا نویز) که شاخصه متن (معناساز) نیستند، باعث بهبود دقت و سرعت الگوریتم‌های متن‌کاوی شوند. در این ابزار علاوه بر علائم و حدود 500 کلمه بی‌ارزش می‌توانید انواع توکن‌های اعداد، ایمیل، آدرس صفحات وب یا شناسه شبکه‌های اجتماعی را به اختیار حذف کنید.

تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل‌دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره و روابط بین آنها توسط این ابزار انجام می‌شود. پارسر نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد. در پارسر وابستگی معمولاً فعل جمله به عنوان ریشه و رابطه سایر اجزا با یکدیگر و ریشه مشخص می‌شوند.

همه ابزارها با یک کلید!

کلیه ابزارهای پردازش متن ما، قابلیت استفاده در زبان‌های مختلف را دارند. این ابزارها در قالب Rest API ارائه می‌شوند و با یک کلید API رایگان می‌توانید به راحتی از آن‌ها استفاده کنید
همچنین این ابزارها را می‌توانید در کاربردهای مختلف استفاده نمایید. نمونه کد به زبان‌های مختلف نیز در مستندات API‌ها وجود دارد.
شروع استفاده رایگان دمو برخی از ابزارها

ابزارهای کاربردی پردازش متن فارسی

در این ابزار موجودیت‌های نامی یا اسامی خاص در یک متن را تشخیص داده و آنها را به رده‌های مشخصی دسته‌بندی می‌کند. این رده‌ها شامل اسامی افراد، سازمان/شرکت‌ها، مکان، تاریخ و زمان مشخص، رویدادهای مهم هستند. این ابزار از ترکیب دو رویکرد مختلف شامل تطابق الگوهای متنی و روش‌های یادگیری ماشین استفاده می‌کند.

هدف این ابزار شناسایی کلمات و عبارات نامناسب (ناسزا/توهین‌آمیز) است. در ابزار طراحی شده برای این منظور، علاوه بر بکار بردن لیست کلمات توهین‌آمیز از الگوهای بیان ناسزا به اشکال مختلف نیز استفاده شده است. این ابزار توان شناسایی عبارات توهین‌آمیز به شکل ساده یا بهم‌ریخته را درون متون فارسی دارد. خروجی ابزار عبارات توهین‌آمیز در دو سطح : ۱-کلمات رکیک حتمی و ۲-کلمات ناسزای احتمالی است.

این ابزار به منظور شناسایی و وزن‌دهی به کلیدواژه‌های اصلی متن استفاده می‌شود. عبارات کلیدی متن، کلمات یا عباراتی هستند که فرد با دیدن آنها متوجه موضوع و محتوای کلی متن نوشته شده می‌شود. در این ابزار، شما می‌توانید تعداد کلیدواژه موردنظر، حداکثر تعداد کلمات (بخش) عبارات کلیدی و الگوریتم وزن‌دهی به عبارات کلیدی را مشخص کنید.

این ابزار جملات مهم متن را طوری انتخاب می‌کند که علاوه براینکه مضمون اصلی متن حفظ شده باشد، متن خروجی از پیوستگی معنایی کافی نیز برخوردار باشد. کاربرد اصلی این ابزار، خلاصه‌سازی اخبار (مربوط به یک رویداد) از سایت‌های مختلف است. البته در نمایش خلاصه محتوا در نتایج موتورهای جستجو و ... نیز کاربرد دارد.

این ابزار میزان شباهت متون را در سه سطح واژه، جمله و سند مشخص می‌کند. کاربرد اصلی آن در موتورهای جستجو و تشخیص سرقت نگارشی برای بازیابی اسناد مشابه با سند (متن پرس‌وجوی) ورودی بهمراه تعیین میزان شباهت با هر یک از آنها است. برای تعیین میزان شباهت از سه رویکرد مختلف استفاده می‌کند:
• شباهت لغوی (بیش از 10 روش متداول شباهت و اشتراک کاراکتری و زیررشته‌ای) • شباهت معنایی (براساس روابط مختلف معنایی لغات در شبکه واژگان) • شباهت کاربردی (براساس روش‌های آماری مختلف، میزان شباهت و رابطه واژگان از نظر استفاده و کاربرد در محتوای متنی را اندازگیری می‌کند)

گروه‌بندی مستندات براساس شباهت محتوایی و قراردادن اسناد جدید در گروه‌های نزدیک به موضوع آنها، بوسیله این ابزار انجام می‌شود. تعیین موضوع (محتوای) متن، نمایه‌زنی خودکار و گروه‌بندی متن (خبر، سوال، ...) مشابه از جمله کاربردهای مهم این ابزار هستند.

به کمک این ابزار قادر خواهید بود تا حدود 60 نوع زبان رایج را برای متن ورودی شناسایی کنید. خروجی نام اختصاری (مخفف) زبان متن مطابق استاندارد ایزو 639/1 است. از ویژگی‌های منحصربه‌فرد این ابزار شناسایی زبان‌های مختلف با الفبای فارسی/عربی از قبیل: زبان‌های فارسی، عربی، آذری، کردی، گیلکی، لوری، مازندرانی، کوردی پنجابی، پشتو، اردو است. البته باید توجه شود که با توجه به اشتراک کلمات در بین زبان‌های مختلف، در متن‌های کوتاه (تعداد کلمات کم) احتمال بروز خطا وجود دارد.

با استفاده از این ابزار نوع و میزان رضایتمندی افراد یا مشتریان از روی متن نوشته شده آنها مشخص می‌شود. نوع حس سه دسته مثبت، خنثی و منفی تقسیم می‌شود. این ابزار کاربردهای متنوعی برای کسب‌وکارهای مختلف دارد:
• تحلیل علایق مشتریان به محصولات با استفاده از نظرات مربوط به هر محصول در فروشگاه‌های آنلاین مثل دیجی‌کالا • تحلیل رضایتمندی مردم درباره سازمان‌های مختلف، شخصیت‌های سیاسی و ... با استفاده از متن کامنت‌های اخبار، شبکه‌های اجتماعی و ...

مقایسه ابزارهای «متن‌کاوی فارسی‌یار» با «هضم»

در مقاله «معرفی سرویسهای متن کاوی فارسی‌یار در دسته بندی متون فارسی غیر رسمی» آقایان مهدی رهبر و دکتر جلال‌الدین نصیری، مقایسه‌ای بین ابزارهای «فارسی‌یار» و «هضم» از نظر دقت انجام شده
ابزار تحلیل زبان فارسی‌یار
بیز ساده
هضم
بیز ساده
فارسی‌یار
ماشین بردار پشتیبان ساده
هضم
ماشین برداری پشتیبان ساده
بدون هیچ ابزار 65.00 65.00 69.65 69.65
ریشه‌یاب 75.48 74.00 77.65 77.17
نرمال‌ساز + ریشه‌یاب 86.32 78.77 88.86 79.26
نرمال‌ساز + ریشه‌یاب
+ تبدیل محاوره به رسمی
91.26 85.30 89.40 82.81

ما در «متن‌کاوی فارسی‌یار» همواره همراه جامعه دانشگاهی هستیم. برای راهنمایی هر چه بیشتر پژوهشگران حوزه متن‌کاوی، مجمعه ای از کنفرانس‌ها و همایش‌های معتبر در زمینه متن کاوی و پردازش زبان طبیعی را در یک نوشته در وبلاگ معرفی کردیم.

با کنفرانس‌ها و همایش‌های معتبر حوزه پردازش متن آشنا شوید

یکی از دغدغه‌های پژوهشگران، انتشار مقالات است. در کنار معرفی همایش‌ها و کنفرانس‌های معتبر حوزه پردازش متن، لیستی از نشریات و مجلات معتبر نیز برای انتشار مقالات حوزه متن‌کاوی و پردازش متن آماده کرده‌ایم که در وبلاگ می‌توانید مطالعه کنید

مجلات و نشریات معتبر در زمینه متن کاوی و پردازش زبان طبیعی

به دنبال پیکره داده هستید؟

در حوزه NER فارسی، ما اطلاعات ویکی‌پدیا فارسی را در قالب حدود یک میلیون جمله با کمک بیش از ۱۲۰۰ داوطلب برچسب‌گذاری و به صورت اپن‌سورس منتشر می‌کنیم. این برچسب‌گذاری با کمک سامانه تحت وب و همچنین اپلیکیشن اندروید فارسی‌یار انجام می‌شود

شبکه واژگان حسی انگلیسی (SentiWordNet) بر اساس تعیین میزان بار حسی هر گروه کلمات هم‌معنی در شبکه واژگان انگلیسی پرینستون (WordNet) ایجاد شده است.
در زبان فارسی برای اولین‌بار با ابهام‌زدایی گروه‌های هم‌معنی WordNet، یک شبکه واژگان جامع به نام فردوس‌نت ساخته شده است. سپس میزان حس هر گروه هم‌معنی در SentiWordNet به کلمات متناظر آنها در شبکه واژگان حسی فارسی (با نام حس‌نگار) نگاشت شده است. حس‌نگار می‌تواند به عنوان واژه‌نامه حسی مرجع برای زبان فارسی مورد استفاده قرار گیرد.

ابزارهای ما را پسندیده‌اید؟

تا شروع استفاده رایگان، فقط یک کلیک فاصله دارید



منابع بیشتر؟

در وبلاگ ما علاوه بر اخبار سرویس متن‌کاوی فارسی‌یار،
می‌توانید از آخرین یافته‌ها و اطلاعات علمی در حوزه پردازش متن مطلع شوید