پیکره‌های فارسی‌یار

مجموعه داده‌های متنی ساخت‌یافته برای تحقیقات زبان‌شناسی و متن‌کاوی

پیکره تشخیص موجودیت‌های نام‌دار (Named Entity Recognition - NER)

نسخه اولیه این پیکره شامل حدود ۲۵ میلیون توکن (واژه یا علامت) در قالب (نزدیک به) یک میلیون جمله از متون ویکی‌پدیا استخراج و توسط گروه فارسی‌یار با روش‌های مختلف بصورت خودکار برچسب‌گذاری اولیه شده است. سپس برچسب‌های اشتباه یا برچسب‌زنی کلمات جاافتاده با کمک مشارکت عمومی مردم (بصورت جمع‌سپاری) اصلاح و تکمیل گردید. در ساخت این پیکره بیش از 1000 نفر مشارکت داشتند.
این پیکره شامل 5 رده (نوع موجودیت) شامل موارد 1- نام اشخاص 2- نام سازمان 3- نام مکان 4- نام یا عبارت رویداد و 5- عبارت زمان یا تاریخ است. برای اطلاع از جزئیات این پیکره به این صفحه مراجعه نمایید.
علاقه‌مندان به همکاری می‌توانند با ثبت‌نام و ورود به پایگاه وب این سامانه و یا اپلیکیشن اندروید فارسی‌یار (که بصورت متن‌باز در گیت‌هاب قرار داده شده است)، در اصلاح برچسب‌گذاری این پیکره مشارکت نمایند.
خروجی‌های جدید پیکره برچسب‌گذاری شده در فواصل زمانی منظم در این آدرس برای پژوهشگران و علاقه‌مندان به تحقیقات پردازش زبان طبیعی قرار می‌گیرد.
همچنین سرویس (ابزار) NER زبان فارسی با کمک و استفاده از خروجی پیکره برچسب خورده، در بخش API ابزارهای پردازش متن در . سامانه متن کاوی فارسی‌یار قرار داده شده است که برای عموم قابل استفاده است.

پیکره ویکی‌پدیای فارسی (بصورت اطلاعات تفکیک و پیش‌پردازش شده) بهمراه مدلهای تعبیه کلمات (یادگیری عمیق)

این پیکره با استخراج بخش‌های مختلف صفحات (مقالات) ویکی‌پدیا پیکره‌ای تهیه و در گیت‌هاب بارگزاری شده است. در ساخت پیکره موجودیت‌های نامی زبان فارسی نیز از همین پیکره استفاده شده است. همچنین این پیکره کاربردهای مختلفی دیگری نیز برای پژوهشگران خواهد داشت.
هر سطر از پیکره شامل اطلاعات یک صفحه ویکی‌پدیا با فرمت JSON و شامل موارد 1-شناسه (Id)، 2-عنوان صفحه (Title)، 3-نوع موجودیت (شامل 0: نامعلوم؛ 1:شخص؛ 2:مکان؛ 3:سازمان؛ 4:رویداد، 5:سایر)، 4-رتبه اهمیت مقاله (Rank)، 5-فضای نام (Namespace)، 6-لیست تغییرمسیرها به این صفحه (RedirectList)، 7-مشخص‌کننده ابهام‌زدایی (IsDisambiguati)، 8-تعداد ارجاعات به این صفحه (TargetLinksCount)، 8-بخش جعبه اطلاعات بصورت تفکیک شده (InfoBox)، 9-متن نرمال‌شده اصلی (Text)، 10-لینک‌های به سایر صفحات (Links)، 11-لیست رده‌ها (Parents) است.
همچنین خروجی مدل‌های زبانی مختلف آموزش داده شده‌ی بوسیله روش‌های مدرن یادگیری عمیق از قبیل (word2vec، glove و fast-text) به مخرن مربوطه اضافه شدند.
برای اطلاع از جزئیات فیلدها بهمراه مثال و توضیحات به این صفحه مراجعه فرمایید. این پیکره هم‌اکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.

فردوس‌نت (شبکه واژگان جامع زبان فارسی) و حس‌نگار (شبکه واژگان حسی فارسی)

ابتدا با استفاده از نگاشت مفاهیم (گروه‌های هم‌معنی) در شبکه واژگان پرینستون به زبان فارسی، شبکه واژگان جامع (فردوس‌نت) ساخته شده است. علاوه بر این با توجه احتمال درستی انتساب گروه‌های کلمه فارسی و انگلیسی، برای کلمات موجود در هر گروه هم‌معنی در فردوس‌نت، درجه اطمینان (اعتبار) محاسبه شده است.
سپس با استفاده از فردوس‌نت، میزان بار حسی محاسبه شده برای هر گروه هم‌معنی در شبکه واژگان حسی انگلیسی (SentiWordNet V3.0) به گروه‌های هم‌معنی متناظر با آن در حس‌نگار نگاشت شده است. پس در واقع با ابهام‌زدایی مفاهیم شبکه واژگان حسی انگلیسی، یک شبکه واژگان حسی برای زبان فارسی ایجاد شده است. از شبکه واژگان حسی فارسی می‌توان به عنوان یک واژه‌نامه حسی مرجع برای زبان فارسی استفاده نمود.
علاوه‌ بر این، مجموعه پیکره‌ها و واژه‌نامه‌های حسی موجود در زبان فارسی که برای نظر کاوی (تحلیل احساسات) مفید هستند نیز گرد‌آوری و همراه با مقالات مرتبط با آنها در مخزن این پیکره قرار داده شده است.
برای اطلاع از الگوریتم و جزئیات تولید فردوس‌نت و حس‌نگار به این مقاله مراجعه فرمایید. برای دریافت نسخه فعلی فردوس‌نت و حس‌نگار به این منبع مراجعه فرمایید.

پیکره اخبار فارسی‌یار (مناسب برای زمینه‌های مختلف متن کاوی)

پیکره اخبار شامل دو بخش (مجموعه اخبار دو خبرگزاری) با اهداف مختلف است. بخش اول پیکره اخبار شامل اخبار سال 1397 خبرگزاری باشگاه خبرنگاران جوان است. در این پیکره بخش‌های (فیلدهای) مختلف حدود 1000000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمع‌آوری شده، استفاده از این پیکره علاوه بر تحلیل‌های آماری و ساخت مدل‌های تعبیه کلمات، برای کاربردهای مختلف متن کاوی نظیر خلاصه‌سازی خودکار، تشخیص موضوع (زمینه) متن خبر (دسته‌بندی متون) و میزان مفید بودن نظرات، قابل استفاده است. در این بخش از پیکره (YJC) برای هر خبر فیلدهای 1-عنوان خبر 2-تاریخ انتشار 3-گروه/نوع خبری (فارسی و انگلیسی) 4-متن نرمال‌شده خلاصه خبر 5-متن نرمال‌شده اصلی خبر 6-برچسب‌های خبر 7-نظرات (شامل تاریخ، تعداد رای مثبت و منفی، متن نظر) وجود دارد.
بخش دوم پیکره اخبار شامل اخبار سال 1397 خبرگزاری فارس‌نیوز است. در این پیکره بخش‌های (فیلدهای) مختلف حدود 286000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمع‌آوری شده، استفاده از این پیکره برای مسائل زیادی در حوزه متن کاوی قابل استفاده است.
در این بخش از پیکره اخبار (FarsNews) برای هر خبر یک سطر از فایل json شامل فیلدهای ذیل در نظر گرفته شده است: 1-عنوان خبر 2-تاریخ انتشار 3-گروه/نوع خبری (فارسی و انگلیسی) 4-متن نرمال‌شده خلاصه خبر 5-متن نرمال‌شده اصلی خبر 6-نظرات شامل: 1.تاریخ، 2.مشخصات نویسنده، 3.متن نظر، 4.پاسخ‌های هر نظر (در صورت وجود)
این پیکره هم‌اکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.