محصولات و ابزارهای ما
مفتخریم که گامی کوچک در جهت توسعه ابزارهای متنکاوی برای زبان فارسی برداشتیم
ویژگی محصولات و ابزارهای تحلیل متن فارسی
دقت
کیفیت مناسب با توجه کردن به جزئیات
تلاش مستمر برای افزایش دقت و کیفیت نتایج ابزارهای پردازش متن براساس استفاده در پروژههای مختلف و گزارش خطا از طرف کاربران و تجربه تحقیقاتی و عملیاتی ۷ ساله
سرعت
بهینه سازی برای کار با جریان داده
سرعت اجرای ابزارهای مختلف پردازش متن، برای کاربردهای مختلف در دنیای واقعی و زبان فارسی و مواجهه با حجم زیاد متون و جریان دادههای ورودی بهینهسازی شده است.
انعطاف پذیری
قابلیت توسعه و تحمل تغییرات ماژولها
با انتخاب معماری و زیرساخت مناسب، و رعایت اصول شیءگرایی قابلیت توسعه و تحمل ابزارها در برابر تغییرات مورد نیاز کسبوکارهای مختلف فراهم شده است.
همراه همیشگی پردازش و تحلیل متن فارسی شما
معرفی محصولات و ابزارهای پردازش متن فارسی
برای تحلیل متون فارسی، امکانات زیر را در اختیار شما قرار میدهیم
نرمالساز متن (Normalizer) اطلاعات بیشتر
هدف این ابزار، تمیز و مرتب کردن متن و یکسانسازی کاراکترها با جایگزین کردن کاراکترهای استاندارد در متن ورودی است. در واقع قبل از پردازش متون جهت استانداردسازی (و یکسانسازی) حروف و فاصلهها بایستی پیشپردازشهایی روی آنها انجام شود. در واقع در این مرحله بایستی همهی نویسههای (حروف) متن با معادل استانداردشان جایگزین گردند.
در ابزار طراحی شده و موجود در سامانه متن کاوی، حدود هزار کاراکتر (حرف) با معادل صحیح آن در صفحه کلید استاندارد فارسی جایگزین میشود.
سپس مطابق با یک سری قاعده دقیق و مشخص، فاصلهها و نیمفاصلههای موجود در متن برای وندهای غیرچسبان (در انتهای لغات) و همچنین پیشوندها و پسوندهای فعلساز و موارد مشابه نیز اصلاح میگردند.
تقطیع جملات و واژهها (Sentence Splitter and Tokenizer) اطلاعات بیشتر
هدف این ابزار تشخیص جملات را در متن ورودی است. به عبارت دیگر جداسازی جملات ساده و مرکب (غیرتودرتو) و واژهها و عبارات خاص (توکنها) از یکدیگر هست. ابزار تشخیصدهندهی جملات با استفاده از علامتهای پایانی جمله و بکارگیری برخی دستورات گرامری زبان فارسی و در نظرگرفتن حروف ربط و برخی لغات آغاز کنندهی جملات مرکب، مرز جملهها را تعیین مینماید.
تشخیصدهندهی لغات (توکن) نیز با استفاده از الگوی کلمات و عبارات خاص و در نظر گرفتن اصلاحات اعمال شده در مورد پیشوندها و پسوندها در فاز قبلی، واحدهای با معنی مانند واژهها را شناسایی مینماید.
در ابزار طراحی شده و موجود در سامانه متن کاوی، علاوه بر شناسایی واژهها، پردازش ویژهای برای درنظر گرفتن یک توکن برای کلمات اختصاری، تاریخ و زمان، اعداد اعشاری، آدرس صفحات وب، ایمیل و سایر عبارات و علائم خاص انجام میشود.
ریشهیابی کلمات یا بُنواژهیاب (Stemmer and Lemmatizer) اطلاعات بیشتر
هدف الگوریتمهای ریشهیابی، حذف وندهای کلمات (پیشوند و پسوندها) و تعیین ریشه اصلی کلمه هستند.
در روشهای ریشهیابی رایج در زبان فارسی، بعد از حذف انواع وندها (اشتقاقی، تصریفی و واژهبست) ممکن است معنای کلمه تغییر یابد. ولی در بُنواژهیاب (یا Lemmatizer) تولید شده در سامانه متن کاوی (text-mining.ir) سعی در ریشهیابی کلمه بدون تغییر مفهوم اصلی کلمه در جمله شده است. همچنین الگوریتم ارائه شده قابلیت تعیین ریشه در چند سطح را دارد. این سطوح مختلف ریشه میتوانند در کاربردهای مختلف پردازش زبان طبیعی مورد استفاده قرار گیرند. در ریشهیاب موجود در سامانه متن کاوی از دو رویکرد مبتنی بر فرهنگ لغات و قواعد ریختشناسی بهره گرفته شده است. برای این ابزار از پنج فرهنگ لغت مختلف استفاده شده است.
تبدیل عبارات محاورهای (عامیانه) به رسمی (Conversational/Slang to Formal Converter) اطلاعات بیشتر
یکی از مشکلات رایج در پردازش متون نظرات وجود کلمات به شکل غیر رسمی (محاورهای یا عامیانه) و عبارات اختصاری برای سادگی در نگارش متن نظر میباشد. درک معنای اینگونه کلمات برای انسان کار راحتی است در حالیکه در پردازش خودکار ماشینی متون، وجود این عبارات مشکلساز خواهد بود. لذا سعی میشود در فاز پیشپردازش اینگونه عبارات با شکل رسمی و صحیح آنها (که مطابق با پیکرههای متن رسمی، لغتنامهها و سایر دانشنامهها موجود است) جایگزین شود.
برای اینمنظور مشابه ریشهیاب طراحی شده، کلمات به دو گروه فعل و غیر فعل تقسیم شده و در هر گروه وندهای (پیشوند و پسوند) کلمات و ریشه (بُن) کلمه بصورت مجزا بوسیله مجموعهای از قوانین بررسی میشوند. همچنین برای ریشه (بُن) کلمات در هر دو گروه کلمات لیستی از کلمات و اختصارات که حالت استثنا دارند، استفاده شده است.
تصحیحکننده خطاهای املایی یا خطا در تایپ کلمات (Spell Correction) اطلاعات بیشتر
با بررسی اولیه متون شبکههای اجتماعی و نظرات میتوان پی برد که علاوه بر مشکلات مربوط به شکل اختصاری یا محاورهای کلمات، غلطهای املایی زیادی سهواً یا عمداً (برای راحتی در نگارش) در متون زبان فارسی وجود دارد. هدف از تولید این ابزار تصحیح خودکار خطاهای املایی ناشی از تایپ اشتباه کلمات در متون میباشد. بدین منظور به ازای کلمات بدون مفهوم، شبیهترین کلمه از نظر املایی و تحلیلهای آماری جایگزین آن خواهد شد.
آزمایش این ابزاربرچسبزنی ادات سخن یا نقش کلمات در جمله (Part of Speech Tagging) اطلاعات بیشتر
برچسبزنی نقش ادات سخن عمل انتساب برچسبهای نحوی (از قبیل اسم، انواع صفت، انواع قید، نوع فعل، انواع حروف و …) به واژهها و نشانههای تشکیل دهنده یک متن است به صورتی که این برچسبها نشان دهنده نقش کلمات و نشانهها در جمله باشند. در زبان فارسی اغلب کلمات دارای نقشی واحد در جملات مختلف هستند. سایر واژگان از نقطه نظر برچسبزن نحوی دارای ابهام هستند، زیرا ممکن است کلمات در جایگاههای مختلف در جمله، برچسبهای نحوی متفاوتی داشته باشند. بنابراین برچسبزنی نحوی، عمل ابهامزدایی از برچسبها با توجه به زمینه (ساختار جمله) مورد نظر است.
ابزار تهیه شده برای برچسبگذاری نقش ادات سخن در متون فارسی، از پیکره برچسب خورده و از ترکیب دو رویکرد یادگیری ماشین و برچسبگذاری مبتنی بر قاعده استفاده مینماید.
شناسایی عبارات رکیک و ناسزا (Swear/Curse Word Detector) اطلاعات بیشتر
هدف این ابزار شناسایی کلمات و عبارات نامناسب (ناسزا/توهینآمیز) است. در ابزار طراحی شده برای این منظور، علاوه بر بکار بردن لیست کلمات توهینآمیز از الگوهای بیان ناسزا به اشکال مختلف نیز استفاده شده است.
این ابزار توان شناسایی عبارات توهینآمیز به شکل ساده یا بهمریخته را درون متون فارسی دارد. خروجی ابزار عبارات توهینآمیز در دو سطح : ۱-کلمات رکیک حتمی و ۲-کلمات ناسزای احتمالی است.
پارسر (Parser) اطلاعات بیشتر
تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیلدهنده مانند گروههای اسمی، فعلی، قیدی و غیره و روابط بین آنها توسط این ابزار انجام میشود. پارسر نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد. در پارسر وابستگی معمولاً فعل جمله به عنوان ریشه و رابطه سایر اجزا با یکدیگر و ریشه مشخص میشوند.
حذف کلمات توقف (Stop Words Removal) اطلاعات بیشتر
کار این ابزار حذف علائم، اعداد و کلمات عمومی و بدون ارزش معنایی (از قبیل: از، در، با، به، است، پس، …) در جمله است. در بسیاری از کاربردهای بازیابی اطلاعات، حذف لغات کماهمیت (توقف یا نویز) که شاخصه متن (معناساز) نیستند، باعث بهبود دقت و سرعت الگوریتمهای متنکاوی شوند. در این ابزار علاوه بر علائم و حدود 500 کلمه بیارزش میتوانید انواع توکنهای اعداد، ایمیل، آدرس صفحات وب یا شناسه شبکههای اجتماعی را به اختیار حذف کنید.
شناسایی موجودیتهای نامی (Named Entity Recognition) اطلاعات بیشتر
در این ابزار موجودیتهای نامی یا اسامی خاص در یک متن را تشخیص داده و آنها را به ردههای مشخصی دستهبندی میکند. این ردهها شامل اسامی افراد، سازمان/شرکتها، مکان، تاریخ و زمان مشخص، رویدادهای مهم هستند. این ابزار از ترکیب دو رویکرد مختلف شامل تطابق الگوهای متنی و روشهای یادگیری ماشین استفاده میکند.
آزمایش این ابزاراستخراج کلمات کلیدی (Keyword Extraction) اطلاعات بیشتر
این ابزار به منظور شناسایی و وزندهی به کلیدواژههای اصلی متن استفاده میشود. عبارات کلیدی متن، کلمات یا عباراتی هستند که فرد با دیدن آنها متوجه موضوع و محتوای کلی متن نوشته شده میشود. در این ابزار، شما میتوانید تعداد کلیدواژه موردنظر، حداکثر تعداد کلمات (بخش) عبارات کلیدی و الگوریتم وزندهی به عبارات کلیدی را مشخص کنید.
آزمایش این ابزارخلاصهسازی متن (Automatic Text Summarization) اطلاعات بیشتر
این ابزار جملات مهم متن را طوری انتخاب میکند که علاوه بر حفظ مضمون اصلی متن مبدا (ورودی)، متن خروجی از پیوستگی معنایی کافی نیز برخوردار باشد. کاربرد اصلی این ابزار، خلاصهسازی اخبار (مربوط به یک رویداد) از سایتهای مختلف است. البته در نمایش خلاصه محتوا در نتایج موتورهای جستجو و ... نیز کاربرد دارد.
آزمایش این ابزارمدلسازی موضوعها (Topic Modeling) اطلاعات بیشتر
روشهای مدلسازی موضوعات به کشف مفاهیم مختلف بیان شده در یک مجموعه متن (نظرات، اخبار، پیامها و ...) با استفاده از گروهبندی (خوشهبندی) کلمات کلیدی هر موضوع میپردازند. خروجی این ابزار چند گروه از کلمات کلیدی است که هر گروه کلمات به یکی از موضوعات (مضامین) متن ورودی اشاره دارند.
آزمایش این ابزارمشابهتیابی متون اطلاعات بیشتر
این ابزار میزان شباهت متون را در سه سطح واژه، جمله و سند مشخص میکند. کاربرد اصلی آن در موتورهای جستجو و تشخیص سرقت نگارشی برای بازیابی اسناد مشابه با سند (متن پرسوجوی) ورودی بهمراه تعیین میزان شباهت با هر یک از آنها است. برای تعیین میزان شباهت از سه رویکرد مختلف استفاده میکند:
• شباهت لغوی (بیش از 10 روش متداول شباهت و اشتراک کاراکتری و زیررشتهای)
• شباهت معنایی (براساس روابط مختلف معنایی لغات در شبکه واژگان)
• شباهت کاربردی (براساس روشهای آماری مختلف، میزان شباهت و رابطه واژگان از نظر استفاده و کاربرد در محتوای متنی را اندازهگیری میکند)
تشخیص موضوع متن (Text Classification) اطلاعات بیشتر
گروهبندی مستندات براساس شباهت محتوایی و قراردادن اسناد جدید در گروههای نزدیک به موضوع آنها، بوسیله این ابزار انجام میشود. تعیین موضوع (محتوای) متن، نمایهزنی خودکار و گروهبندی متن (خبر، سوال، ...) مشابه از جمله کاربردهای مهم این ابزار هستند.
تشخیص نوع زبان متن (Language Detection) اطلاعات بیشتر
به کمک این ابزار قادر خواهید بود تا حدود 60 نوع زبان رایج را برای متن ورودی شناسایی کنید. خروجی نام اختصاری (مخفف) زبان متن مطابق استاندارد ایزو 639/1 است. از ویژگیهای منحصربهفرد این ابزار شناسایی زبانهای مختلف با الفبای فارسی/عربی از قبیل: زبانهای فارسی، عربی، آذری، کردی، گیلکی، لوری، مازندرانی، کوردی پنجابی، پشتو، اردو است. البته باید توجه شود که با توجه به اشتراک کلمات در بین زبانهای مختلف، در متنهای کوتاه (تعداد کلمات کم) احتمال بروز خطا وجود دارد.
آزمایش این ابزارتحلیل حسی متن اطلاعات بیشتر
با استفاده از این ابزار نوع و میزان رضایتمندی افراد یا مشتریان از روی متن نوشته شده آنها مشخص میشود. نوع حس سه دسته مثبت، خنثی و منفی تقسیم میشود. این ابزار کاربردهای متنوعی برای کسبوکارهای مختلف دارد:
• تحلیل علایق مشتریان به محصولات با استفاده از نظرات مربوط به هر محصول در فروشگاههای آنلاین مثل دیجیکالا
• تحلیل رضایتمندی مردم درباره سازمانها یا برندهای تجاری مختلف، شخصیتهای سیاسی و ... با استفاده از متن کامنتهای اخبار، شبکههای اجتماعی و ...
توجه: در تولید نسخه فعلی این ابزار از پیکره نظرات چند سایت فروشگاهی و خدماتی برای آموزش الگوریتمهای یادگیری ماشین استفاده شده است. لذا ممکن است تحلیلگر حسی فعلی برای پیامهای عامیانه شبکههای اجتماعی کیفیت لازم را نداشته باشد.
ویراستاری متون فارسی اطلاعات بیشتر
این ابزار برای ویراستاری متون فارسی، پیشنهاد شکل ارجح کلمات، کشف و پیشنهاد شکل صحیح اشتباهات املائی یا تایپی استفاده میشود. بطور کلی ویراستار فارسییار شامل ماژولهای ذیل است:
• اصلاح نویسهها: حدود ۱۰۰۰ نوع کاراکتر غیراستاندارد در صفحه کلیدهای مختلف دستگاهها و سیستمعاملهای مختلف به شکل فارسی استاندارد تبدیل میشوند.
• اصلاح فاصلهگذاری: فاصله و نیمفاصله بین کلمات چسبیده بهم یا کلمات مرکب (چندبخشی) جدا نوشته شده و همچنین اصلاح فاصله بین علائم نگارشی مطابق دستور زبان فارسی استانداردسازی میشود.
• پیشنهاد درستنویسی: شکل ارجح و صحیحتر واژگان یا عبارات برای اصلاحات متداول بکار گرفته شده در متن مطابق واژههای مصوب فرهنگستان پیشنهاد میشود.
• تشخیص و اصلاح اشتباهات املائی: عبارات ناصحیح شناسایی و واژههای صحیح محتمل با آنها بر اساس شباهت لغوی و کاربردی پیشنهاد میشود. (با قابلیت افزودن واژههای جدید به فهرست واژگان صحیح)