محصولات و ابزارهای ما

مفتخریم که گامی کوچک در جهت توسعه ابزارهای متن‌کاوی برای زبان فارسی برداشتیم

ویژگی محصولات «متن‌ کاوی»

ویژگی محصولات و ابزارهای پردازش متن فارسی


دقت

کیفیت مناسب با توجه کردن به جزئیات

تلاش مستمر برای افزایش دقت و کیفیت نتایج ابزارهای پردازش متن براساس استفاده در پروژه‌های مختلف و گزارش خطا از طرف کاربران و تجربه تحقیقاتی و عملیاتی ۷ ساله

سرعت

بهینه سازی برای کار با جریان داده

سرعت اجرای ابزارهای مختلف پردازش متن، برای کاربردهای مختلف در دنیای واقعی و زبان فارسی و مواجهه با حجم زیاد متون و جریان داده‌های ورودی بهینه‌سازی شده است.

انعطاف پذیری

قابلیت توسعه و تحمل تغییرات ماژول‌ها

با انتخاب معماری و زیرساخت مناسب، و رعایت اصول شیء‌گرایی قابلیت توسعه و تحمل ابزارها در برابر تغییرات مورد نیاز کسب‌وکارهای مختلف فراهم شده است.

همراه همیشگی پردازش و تحلیل متن فارسی شما

معرفی محصولات «متن کاوی»

معرفی محصولات و ابزارهای پردازش متن فارسی


برای پردازش متون فارسی، امکانات زیر را در اختیار شما قرار می‌دهیم

هدف این ابزار، تمیز و مرتب کردن متن و یکسان‌سازی کاراکترها با جایگزین کردن کاراکترهای استاندارد در متن ورودی است. در واقع قبل از پردازش متون جهت استانداردسازی (و یکسان‌سازی) حروف و فاصله‌ها بایستی پیش‌پردازش‌هایی روی آنها انجام شود. در واقع در این مرحله بایستی همه‌ی نویسه‌های (حروف) متن با معادل استانداردشان جایگزین گردند.
در ابزار طراحی شده و موجود در سامانه متن کاوی، حدود هزار کاراکتر (حرف) با معادل صحیح آن در صفحه کلید استاندارد فارسی جایگزین می‌شود.
سپس مطابق با یک سری قاعده دقیق و مشخص، فاصله‌ها و نیم‌فاصله‌های موجود در متن برای وندهای غیرچسبان (در انتهای لغات) و همچنین پیشوندها و پسوندهای فعل‌ساز و موارد مشابه نیز اصلاح می‌گردند.

هدف این ابزار شخیص جملات را در متن ورودی است. به عبارت دیگر جداسازی جملات ساده و مرکب (غیرتودرتو) و واژه‌ها و عبارات خاص (توکن‌ها) از یکدیگر هست. ابزار تشخیص‌دهنده‌ی جملات با استفاده از علامت‌های پایانی جمله و بکارگیری برخی دستورات گرامری زبان فارسی و در نظرگرفتن حروف ربط و برخی لغات آغاز کننده‌ی جملات مرکب، مرز جمله‌ها را تعیین می‌نماید.
تشخیص‌دهنده‌ی لغات (توکن) نیز با استفاده از الگوی کلمات و عبارات خاص و در نظر گرفتن اصلاحات اعمال شده در مورد پیشوندها و پسوندها در فاز قبلی، واحدهای با معنی مانند واژه‌ها را شناسایی می‌نماید. در ابزار طراحی شده و موجود در سامانه متن کاوی، علاوه بر شناسایی واژه‌ها، پردازش ویژه‌ای برای درنظر گرفتن توکن واحد برای کلمات اختصاری، تاریخ و زمان، اعداد اعشاری، آدرس صفحات وب، ایمیل و سایر عبارات و علائم خاص انجام می‌شود.

هدف الگوریتم‌های ریشه‌یابی، حذف وندهای کلمات (پیشوند و پسوندها) و تعیین ریشه اصلی کلمه هستند.
در روش‌های ریشه‌یابی رایج در زبان فارسی، بعد از حذف انواع وندها (اشتقاقی، تصریفی و واژه‌بست) ممکن است معنای کلمه تغییر یابد. ولی در بُن‌واژه‌یاب (یا Lemmatizer) تولید شده در سامانه متن کاوی (text-mining.ir) سعی در ریشه‌یابی کلمه بدون تغییر مفهوم اصلی کلمه در جمله شده است. همچنین الگوریتم ارائه شده قابلیت تعیین ریشه در چند سطح را دارد. این سطوح مختلف ریشه می‌توانند در کاربردهای مختلف پردازش زبان طبیعی مورد استفاده قرار گیرند. در ریشه‌یاب موجود در سامانه متن کاوی از دو رویکرد مبتنی بر فرهنگ لغات و قواعد ریخت‌شناسی بهره گرفته شده است. برای این ابزار از پنج فرهنگ لغت مختلف استفاده شده است.

یکی از مشکلات رایج در پردازش متون نظرات وجود کلمات به شکل غیر رسمی (محاوره‌ای) و عبارات اختصاری برای سادگی در نگارش متن نظر می‌باشد. درک معنای این‌گونه کلمات برای انسان کار راحتی است در حالیکه در پردازش خودکار ماشینی متون، وجود این عبارات مشکل‌ساز خواهد بود. لذا سعی می‌شود در فاز پیش‌پردازش این‌گونه عبارات با شکل رسمی و صحیح آنها (که مطابق با پیکره‌های متن رسمی، لغت‌نامه‌ها و سایر دانش‌نامه‌ها موجود است) جایگزین شود.
برای این‌منظور مشابه ریشه‌یاب طراحی شده، کلمات به دو گروه فعل و غیر فعل تقسیم شده و در هر گروه وندهای (پیشوند و پسوند) کلمات و ریشه (بُن) کلمه بصورت مجزا بوسیله مجموعه‌ای از قوانین بررسی می‌شوند. همچنین برای ریشه (بُن) کلمات در هر دو گروه کلمات لیستی از کلمات و اختصارات که حالت استثنا دارند، استفاده شده است.

با بررسی اولیه متون شبکه‌های اجتماعی و نظرات می‌توان پی برد که علاوه بر مشکلات مربوط به شکل اختصاری یا محاوره‌ای کلمات، غلط‌های املایی زیادی سهواً یا عمداً (برای راحتی در نگارش) در متون زبان فارسی وجود دارد. هدف از تولید این ابزار تصحیح خودکار خطاهای املایی ناشی از تایپ اشتباه کلمات در متون می‌باشد. بدین منظور به ازای کلمات بدون مفهوم، شبیه‌ترین کلمه از نظر املایی و تحلیل‌های آماری جایگزین آن خواهد شد.

برچسب‌­زنی نقش ادات سخن عمل انتساب برچسب­‌های نحوی (از قبیل اسم، انواع صفت، انواع قید، نوع فعل، انواع حروف و …) به واژه­‌ها و نشانه­‌های تشکیل دهنده یک متن است به صورتی که این برچسب‌­ها نشان دهنده نقش کلمات و نشانه­‌ها در جمله باشند. در زبان فارسی اغلب کلمات دارای نقشی واحد در جملات مختلف هستند. سایر واژگان از نقطه نظر برچسب­‌زن نحوی دارای ابهام هستند، زیرا ممکن است کلمات در جایگاه­‌های مختلف در جمله، برچسب­‌های نحوی متفاوتی داشته باشند. بنابراین برچسب‌زنی نحوی، عمل ابهام‌زدایی از برچسب­‌ها با توجه به زمینه (ساختار جمله) مورد نظر است.
ابزار تهیه شده برای برچسب‌گذاری نقش ادات سخن در متون فارسی، از پیکره برچسب خورده و از ترکیب دو رویکرد یادگیری ماشین و برچسب‌گذاری مبتنی بر قاعده استفاده می‌نماید.

هدف این ابزار شناسایی کلمات و عبارات نامناسب (ناسزا/توهین‌آمیز) است. در ابزار طراحی شده برای این منظور، علاوه بر بکار بردن لیست کلمات توهین‌آمیز از الگوهای بیان ناسزا به اشکال مختلف نیز استفاده شده است.
این ابزار توان شناسایی عبارات توهین‌آمیز به شکل ساده یا بهم‌ریخته را درون متون فارسی دارد. خروجی ابزار عبارات توهین‌آمیز در دو سطح : ۱-کلمات رکیک حتمی و ۲-کلمات ناسزای احتمالی است.

تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل‌دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره و روابط بین آنها توسط این ابزار انجام می‌شود. پارسر نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد. در پارسر وابستگی معمولاً فعل جمله به عنوان ریشه و رابطه سایر اجزا با یکدیگر و ریشه مشخص می‌شوند.

کار این ابزار حذف علائم، اعداد و کلمات عمومی و بدون ارزش معنایی (از قبیل: از، در، با، به، است، پس، …) در جمله است. در بسیاری از کاربردهای بازیابی اطلاعات، حذف لغات کم‌اهمیت (توقف یا نویز) که شاخصه متن (معناساز) نیستند، باعث بهبود دقت و سرعت الگوریتم‌های متن‌کاوی شوند. در این ابزار علاوه بر علائم و حدود 500 کلمه بی‌ارزش می‌توانید انواع توکن‌های اعداد، ایمیل، آدرس صفحات وب یا شناسه شبکه‌های اجتماعی را به اختیار حذف کنید.

در این ابزار موجودیت‌های نامی یا اسامی خاص در یک متن را تشخیص داده و آنها را به رده‌های مشخصی دسته‌بندی می‌کند. این رده‌ها شامل اسامی افراد، سازمان/شرکت‌ها، مکان، تاریخ و زمان مشخص، رویدادهای مهم هستند. این ابزار از ترکیب دو رویکرد مختلف شامل تطابق الگوهای متنی و روش‌های یادگیری ماشین استفاده می‌کند.

این ابزار به منظور شناسایی و وزن‌دهی به کلیدواژه‌های اصلی متن استفاده می‌شود. عبارات کلیدی متن، کلمات یا عباراتی هستند که فرد با دیدن آنها متوجه موضوع و محتوای کلی متن نوشته شده می‌شود. در این ابزار، شما می‌توانید تعداد کلیدواژه موردنظر، حداکثر تعداد کلمات (بخش) عبارات کلیدی و الگوریتم وزن‌دهی به عبارات کلیدی را مشخص کنید.

این ابزار جملات مهم متن را طوری انتخاب می‌کند که علاوه براینکه مضمون اصلی متن حفظ شده باشد، متن خروجی از پیوستگی معنایی کافی نیز برخوردار باشد. کاربرد اصلی این ابزار، خلاصه‌سازی اخبار (مربوط به یک رویداد) از سایت‌های مختلف است. البته در نمایش خلاصه محتوا در نتایج موتورهای جستجو و ... نیز کاربرد دارد.

این ابزار میزان شباهت متون را در سه سطح واژه، جمله و سند مشخص می‌کند. کاربرد اصلی آن در موتورهای جستجو و تشخیص سرقت نگارشی برای بازیابی اسناد مشابه با سند (متن پرس‌وجوی) ورودی بهمراه تعیین میزان شباهت با هر یک از آنها است. برای تعیین میزان شباهت از سه رویکرد مختلف استفاده می‌کند:
• شباهت لغوی (بیش از 10 روش متداول شباهت و اشتراک کاراکتری و زیررشته‌ای)
• شباهت معنایی (براساس روابط مختلف معنایی لغات در شبکه واژگان)
• شباهت کاربردی (براساس روش‌های آماری مختلف، میزان شباهت و رابطه واژگان از نظر استفاده و کاربرد در محتوای متنی را اندازگیری می‌کند)

گروه‌بندی مستندات براساس شباهت محتوایی و قراردادن اسناد جدید در گروه‌های نزدیک به موضوع آنها، بوسیله این ابزار انجام می‌شود. تعیین موضوع (محتوای) متن، نمایه‌زنی خودکار و گروه‌بندی متن (خبر، سوال، ...) مشابه از جمله کاربردهای مهم این ابزار هستند.

به کمک این ابزار قادر خواهید بود تا حدود 60 نوع زبان رایج را برای متن ورودی شناسایی کنید. خروجی نام اختصاری (مخفف) زبان متن مطابق استاندارد ایزو 639/1 است. از ویژگی‌های منحصربه‌فرد این ابزار شناسایی زبان‌های مختلف با الفبای فارسی/عربی از قبیل: زبان‌های فارسی، عربی، آذری، کردی، گیلکی، لوری، مازندرانی، کوردی پنجابی، پشتو، اردو است. البته باید توجه شود که با توجه به اشتراک کلمات در بین زبان‌های مختلف، در متن‌های کوتاه (تعداد کلمات کم) احتمال بروز خطا وجود دارد.

با استفاده از این ابزار نوع و میزان رضایتمندی افراد یا مشتریان از روی متن نوشته شده آنها مشخص می‌شود. نوع حس سه دسته مثبت، خنثی و منفی تقسیم می‌شود. این ابزار کاربردهای متنوعی برای کسب‌وکارهای مختلف دارد:
• تحلیل علایق مشتریان به محصولات با استفاده از نظرات مربوط به هر محصول در فروشگاه‌های آنلاین مثل دیجی‌کالا
• تحلیل رضایتمندی مردم درباره سازمان‌های مختلف، شخصیت‌های سیاسی و ... با استفاده از متن کامنت‌های اخبار، شبکه‌های اجتماعی و ...