ابزارهای پیش پردازش متن فارسی
هدف این ابزار، تمیز و مرتب کردن متن و یکسانسازی کاراکترها با جایگزین کردن کاراکترهای استاندارد در متن ورودی است. در واقع قبل از پردازش متون جهت استانداردسازی (و یکسانسازی) حروف و فاصلهها بایستی پیشپردازشهایی روی آنها انجام شود. در واقع در این مرحله بایستی همهی نویسههای (حروف) متن با معادل استانداردشان جایگزین گردند.
در ابزار طراحی شده و موجود در سامانه متن کاوی، حدود هزار کاراکتر (حرف) با معادل صحیح آن در صفحه کلید استاندارد فارسی جایگزین میشود.
سپس مطابق با یک سری قاعده دقیق و مشخص، فاصلهها و نیمفاصلههای موجود در متن برای وندهای غیرچسبان (در انتهای لغات) و همچنین پیشوندها و پسوندهای فعلساز و موارد مشابه نیز اصلاح میگردند.
هدف این ابزار تشخیص جملات را در متن ورودی است. به عبارت دیگر جداسازی جملات ساده و مرکب (غیرتودرتو) و واژهها و عبارات خاص (توکنها) از یکدیگر هست. ابزار تشخیصدهندهی جملات با استفاده از علامتهای پایانی جمله و بکارگیری برخی دستورات گرامری زبان فارسی و در نظرگرفتن حروف ربط و برخی لغات آغاز کنندهی جملات مرکب، مرز جملهها را تعیین مینماید.
تشخیصدهندهی لغات (توکن) نیز با استفاده از الگوی کلمات و عبارات خاص و در نظر گرفتن اصلاحات اعمال شده در مورد پیشوندها و پسوندها در فاز قبلی، واحدهای با معنی مانند واژهها را شناسایی مینماید. در ابزار طراحی شده و موجود در سامانه متن کاوی، علاوه بر شناسایی واژهها، پردازش ویژهای برای درنظر گرفتن توکن واحد برای کلمات اختصاری، تاریخ و زمان، اعداد اعشاری، آدرس صفحات وب، ایمیل و سایر عبارات و علائم خاص انجام میشود.
هدف الگوریتمهای ریشهیابی، حذف وندهای کلمات (پیشوند و پسوندها) و تعیین ریشه اصلی کلمه هستند.
در روشهای ریشهیابی رایج در زبان فارسی، بعد از حذف انواع وندها (اشتقاقی، تصریفی و واژهبست) ممکن است معنای کلمه تغییر یابد. ولی در بُنواژهیاب (یا Lemmatizer) تولید شده در سامانه متن کاوی (text-mining.ir) سعی در ریشهیابی کلمه بدون تغییر مفهوم اصلی کلمه در جمله شده است. همچنین الگوریتم ارائه شده قابلیت تعیین ریشه در چند سطح را دارد. این سطوح مختلف ریشه میتوانند در کاربردهای مختلف پردازش زبان طبیعی مورد استفاده قرار گیرند. در ریشهیاب موجود در سامانه متن کاوی از دو رویکرد مبتنی بر فرهنگ لغات و قواعد ریختشناسی بهره گرفته شده است. برای این ابزار از پنج فرهنگ لغت مختلف استفاده شده است.
یکی از مشکلات رایج در پردازش متون نظرات وجود کلمات به شکل غیر رسمی (محاورهای) و عبارات اختصاری برای سادگی در نگارش متن نظر میباشد. درک معنای اینگونه کلمات برای انسان کار راحتی است در حالیکه در پردازش خودکار ماشینی متون، وجود این عبارات مشکلساز خواهد بود. لذا سعی میشود در فاز پیشپردازش اینگونه عبارات با شکل رسمی و صحیح آنها (که مطابق با پیکرههای متن رسمی، لغتنامهها و سایر دانشنامهها موجود است) جایگزین شود.
برای اینمنظور مشابه ریشهیاب طراحی شده، کلمات به دو گروه فعل و غیر فعل تقسیم شده و در هر گروه وندهای (پیشوند و پسوند) کلمات و ریشه (بُن) کلمه بصورت مجزا بوسیله مجموعهای از قوانین بررسی میشوند. همچنین برای ریشه (بُن) کلمات در هر دو گروه کلمات لیستی از کلمات و اختصارات که حالت استثنا دارند، استفاده شده است.
با بررسی اولیه متون شبکههای اجتماعی و نظرات میتوان پی برد که علاوه بر مشکلات مربوط به شکل اختصاری یا محاورهای کلمات، غلطهای املایی زیادی سهواً یا عمداً (برای راحتی در نگارش) در متون زبان فارسی وجود دارد. هدف از تولید این ابزار تصحیح خودکار خطاهای املایی ناشی از تایپ اشتباه کلمات در متون میباشد. بدین منظور به ازای کلمات بدون مفهوم، شبیهترین کلمه از نظر املایی و تحلیلهای آماری جایگزین آن خواهد شد.
برچسبزنی نقش ادات سخن عمل انتساب برچسبهای نحوی (از قبیل اسم، انواع صفت، انواع قید، نوع فعل، انواع حروف و …) به واژهها و نشانههای تشکیل دهنده یک متن است به صورتی که این برچسبها نشان دهنده نقش کلمات و نشانهها در جمله باشند. در زبان فارسی اغلب کلمات دارای نقشی واحد در جملات مختلف هستند. سایر واژگان از نقطه نظر برچسبزن نحوی دارای ابهام هستند، زیرا ممکن است کلمات در جایگاههای مختلف در جمله، برچسبهای نحوی متفاوتی داشته باشند. بنابراین برچسبزنی نحوی، عمل ابهامزدایی از برچسبها با توجه به زمینه (ساختار جمله) مورد نظر است.
ابزار تهیه شده برای برچسبگذاری نقش ادات سخن در متون فارسی، از پیکره برچسب خورده و از ترکیب دو رویکرد یادگیری ماشین و برچسبگذاری مبتنی بر قاعده استفاده مینماید.
کار این ابزار حذف علائم، اعداد و کلمات عمومی و بدون ارزش معنایی (از قبیل: از، در، با، به، است، پس، …) در جمله است.
در بسیاری از کاربردهای بازیابی اطلاعات، حذف لغات کماهمیت (توقف یا نویز) که شاخصه متن (معناساز) نیستند، باعث بهبود دقت و سرعت الگوریتمهای متنکاوی شوند. در این ابزار علاوه بر علائم و حدود 500 کلمه بیارزش میتوانید انواع توکنهای اعداد، ایمیل، آدرس صفحات وب یا شناسه شبکههای اجتماعی را به اختیار حذف کنید.
تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیلدهنده مانند گروههای اسمی، فعلی، قیدی و غیره و روابط بین آنها توسط این ابزار انجام میشود. پارسر نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد. در پارسر وابستگی معمولاً فعل جمله به عنوان ریشه و رابطه سایر اجزا با یکدیگر و ریشه مشخص میشوند.
ابزارهای کاربردی پردازش متن فارسی
در این ابزار موجودیتهای نامی یا اسامی خاص در یک متن را تشخیص داده و آنها را به ردههای مشخصی دستهبندی میکند. این ردهها شامل اسامی افراد، سازمان/شرکتها، مکان، تاریخ و زمان مشخص، رویدادهای مهم هستند. این ابزار از ترکیب دو رویکرد مختلف شامل تطابق الگوهای متنی و روشهای یادگیری ماشین استفاده میکند.
هدف این ابزار شناسایی کلمات و عبارات نامناسب (ناسزا/توهینآمیز) است. در ابزار طراحی شده برای این منظور، علاوه بر بکار بردن لیست کلمات توهینآمیز از الگوهای بیان ناسزا به اشکال مختلف نیز استفاده شده است. این ابزار توان شناسایی عبارات توهینآمیز به شکل ساده یا بهمریخته را درون متون فارسی دارد. خروجی ابزار عبارات توهینآمیز در دو سطح : ۱-کلمات رکیک حتمی و ۲-کلمات ناسزای احتمالی است.
این ابزار به منظور شناسایی و وزندهی به کلیدواژههای اصلی متن استفاده میشود. عبارات کلیدی متن، کلمات یا عباراتی هستند که فرد با دیدن آنها متوجه موضوع و محتوای کلی متن نوشته شده میشود. در این ابزار، شما میتوانید تعداد کلیدواژه موردنظر، حداکثر تعداد کلمات (بخش) عبارات کلیدی و الگوریتم وزندهی به عبارات کلیدی را مشخص کنید.
این ابزار جملات مهم متن را طوری انتخاب میکند که علاوه براینکه مضمون اصلی متن حفظ شده باشد، متن خروجی از پیوستگی معنایی کافی نیز برخوردار باشد. کاربرد اصلی این ابزار، خلاصهسازی اخبار (مربوط به یک رویداد) از سایتهای مختلف است. البته در نمایش خلاصه محتوا در نتایج موتورهای جستجو و ... نیز کاربرد دارد.
این ابزار میزان شباهت متون را در سه سطح واژه، جمله و سند مشخص میکند. کاربرد اصلی آن در موتورهای جستجو و تشخیص سرقت نگارشی برای بازیابی اسناد مشابه با سند (متن پرسوجوی) ورودی بهمراه تعیین میزان شباهت با هر یک از آنها است. برای تعیین میزان شباهت از سه رویکرد مختلف استفاده میکند:
• شباهت لغوی (بیش از 10 روش متداول شباهت و اشتراک کاراکتری و زیررشتهای)
• شباهت معنایی (براساس روابط مختلف معنایی لغات در شبکه واژگان)
• شباهت کاربردی (براساس روشهای آماری مختلف، میزان شباهت و رابطه واژگان از نظر استفاده و کاربرد در محتوای متنی را اندازگیری میکند)
گروهبندی مستندات براساس شباهت محتوایی و قراردادن اسناد جدید در گروههای نزدیک به موضوع آنها، بوسیله این ابزار انجام میشود. تعیین موضوع (محتوای) متن، نمایهزنی خودکار و گروهبندی متن (خبر، سوال، ...) مشابه از جمله کاربردهای مهم این ابزار هستند.
به کمک این ابزار قادر خواهید بود تا حدود 60 نوع زبان رایج را برای متن ورودی شناسایی کنید. خروجی نام اختصاری (مخفف) زبان متن مطابق استاندارد ایزو 639/1 است. از ویژگیهای منحصربهفرد این ابزار شناسایی زبانهای مختلف با الفبای فارسی/عربی از قبیل: زبانهای فارسی، عربی، آذری، کردی، گیلکی، لوری، مازندرانی، کوردی پنجابی، پشتو، اردو است. البته باید توجه شود که با توجه به اشتراک کلمات در بین زبانهای مختلف، در متنهای کوتاه (تعداد کلمات کم) احتمال بروز خطا وجود دارد.
با استفاده از این ابزار نوع و میزان رضایتمندی افراد یا مشتریان از روی متن نوشته شده آنها مشخص میشود. نوع حس سه دسته مثبت، خنثی و منفی تقسیم میشود. این ابزار کاربردهای متنوعی برای کسبوکارهای مختلف دارد:
• تحلیل علایق مشتریان به محصولات با استفاده از نظرات مربوط به هر محصول در فروشگاههای آنلاین مثل دیجیکالا
• تحلیل رضایتمندی مردم درباره سازمانهای مختلف، شخصیتهای سیاسی و ... با استفاده از متن کامنتهای اخبار، شبکههای اجتماعی و ...
مقایسه ابزارهای «متنکاوی فارسییار» با «هضم»
در مقاله «معرفی سرویسهای متن کاوی فارسییار در دسته بندی متون فارسی غیر رسمی» آقایان مهدی رهبر و دکتر جلالالدین نصیری، مقایسهای بین ابزارهای «فارسییار» و «هضم» از نظر دقت انجام شده
ابزار تحلیل زبان | فارسییار بیز ساده |
هضم بیز ساده |
فارسییار ماشین بردار پشتیبان ساده |
هضم ماشین برداری پشتیبان ساده |
---|---|---|---|---|
بدون هیچ ابزار | 65.00 | 65.00 | 69.65 | 69.65 |
ریشهیاب | 75.48 | 74.00 | 77.65 | 77.17 |
نرمالساز + ریشهیاب | 86.32 | 78.77 | 88.86 | 79.26 |
نرمالساز + ریشهیاب
+ تبدیل محاوره به رسمی |
91.26 | 85.30 | 89.40 | 82.81 |
در یک مجموعه نوشته پنج قسمتی در وبلاگ متنکاوی فارسییار به معرفی بهترین کتابخانههای پردازش متن پرداختهایم:
ما در «متنکاوی فارسییار» همواره همراه جامعه دانشگاهی هستیم. برای راهنمایی هر چه بیشتر پژوهشگران حوزه متنکاوی، مجمعه ای از
کنفرانسها و همایشهای معتبر در زمینه متن کاوی و پردازش زبان طبیعی را در یک نوشته در وبلاگ معرفی کردیم.
با کنفرانسها و همایشهای معتبر حوزه پردازش متن آشنا شوید
یکی از دغدغههای پژوهشگران، انتشار مقالات است. در کنار معرفی همایشها و کنفرانسهای معتبر حوزه پردازش متن، لیستی از نشریات و مجلات معتبر نیز برای انتشار مقالات حوزه
متنکاوی و پردازش متن آماده کردهایم که در وبلاگ میتوانید مطالعه کنید
مجلات و نشریات معتبر در زمینه متن کاوی و پردازش زبان طبیعی