پیکرههای فارسییار
مجموعه دادههای متنی ساختیافته برای تحقیقات زبانشناسی و متنکاوی
پیکره تشخیص موجودیتهای نامدار (Named Entity Recognition - NER)
نسخه اولیه این پیکره شامل حدود ۲۵ میلیون توکن (واژه یا علامت) در قالب (نزدیک به) یک میلیون جمله از متون ویکیپدیا استخراج و توسط گروه فارسییار با روشهای مختلف بصورت خودکار برچسبگذاری اولیه شده است. سپس برچسبهای اشتباه یا برچسبزنی کلمات جاافتاده با کمک مشارکت عمومی مردم (بصورت جمعسپاری) اصلاح و تکمیل گردید. در ساخت این پیکره
بیش از 1000 نفر
مشارکت داشتند.
این پیکره شامل 5 رده (نوع موجودیت) شامل موارد 1- نام اشخاص 2- نام سازمان 3- نام مکان 4- نام یا عبارت رویداد و 5- عبارت زمان یا تاریخ است. برای اطلاع از جزئیات این پیکره به این صفحه مراجعه نمایید.
علاقهمندان به همکاری میتوانند با ثبتنام و ورود به پایگاه وب این سامانه و یا اپلیکیشن اندروید فارسییار (که بصورت متنباز در گیتهاب قرار داده شده است)، در اصلاح برچسبگذاری این پیکره مشارکت نمایند.
خروجیهای جدید پیکره برچسبگذاری شده در فواصل زمانی منظم در این آدرس برای پژوهشگران و علاقهمندان به تحقیقات پردازش زبان طبیعی قرار میگیرد.
همچنین سرویس (ابزار) NER زبان فارسی با کمک و استفاده از خروجی پیکره برچسب خورده، در بخش API ابزارهای پردازش متن در . سامانه متن کاوی فارسییار قرار داده شده است که برای عموم قابل استفاده است.
این پیکره شامل 5 رده (نوع موجودیت) شامل موارد 1- نام اشخاص 2- نام سازمان 3- نام مکان 4- نام یا عبارت رویداد و 5- عبارت زمان یا تاریخ است. برای اطلاع از جزئیات این پیکره به این صفحه مراجعه نمایید.
علاقهمندان به همکاری میتوانند با ثبتنام و ورود به پایگاه وب این سامانه و یا اپلیکیشن اندروید فارسییار (که بصورت متنباز در گیتهاب قرار داده شده است)، در اصلاح برچسبگذاری این پیکره مشارکت نمایند.
خروجیهای جدید پیکره برچسبگذاری شده در فواصل زمانی منظم در این آدرس برای پژوهشگران و علاقهمندان به تحقیقات پردازش زبان طبیعی قرار میگیرد.
همچنین سرویس (ابزار) NER زبان فارسی با کمک و استفاده از خروجی پیکره برچسب خورده، در بخش API ابزارهای پردازش متن در . سامانه متن کاوی فارسییار قرار داده شده است که برای عموم قابل استفاده است.
پیکره ویکیپدیای فارسی (بصورت اطلاعات تفکیک و پیشپردازش شده) بهمراه مدلهای تعبیه کلمات (یادگیری عمیق)
این پیکره با استخراج بخشهای مختلف صفحات (مقالات) ویکیپدیا پیکرهای تهیه و در
گیتهاب
بارگزاری شده است. در ساخت
پیکره موجودیتهای نامی زبان فارسی
نیز از همین پیکره استفاده شده است. همچنین این پیکره کاربردهای مختلفی دیگری نیز برای پژوهشگران خواهد داشت.
هر سطر از پیکره شامل اطلاعات یک صفحه ویکیپدیا با فرمت JSON و شامل موارد 1-شناسه (Id)، 2-عنوان صفحه (Title)، 3-نوع موجودیت (شامل 0: نامعلوم؛ 1:شخص؛ 2:مکان؛ 3:سازمان؛ 4:رویداد، 5:سایر)، 4-رتبه اهمیت مقاله (Rank)، 5-فضای نام (Namespace)، 6-لیست تغییرمسیرها به این صفحه (RedirectList)، 7-مشخصکننده ابهامزدایی (IsDisambiguati)، 8-تعداد ارجاعات به این صفحه (TargetLinksCount)، 8-بخش جعبه اطلاعات بصورت تفکیک شده (InfoBox)، 9-متن نرمالشده اصلی (Text)، 10-لینکهای به سایر صفحات (Links)، 11-لیست ردهها (Parents) است.
همچنین خروجی مدلهای زبانی مختلف آموزش داده شدهی بوسیله روشهای مدرن یادگیری عمیق از قبیل (word2vec، glove و fast-text) به مخرن مربوطه اضافه شدند.
برای اطلاع از جزئیات فیلدها بهمراه مثال و توضیحات به این صفحه مراجعه فرمایید. این پیکره هماکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.
هر سطر از پیکره شامل اطلاعات یک صفحه ویکیپدیا با فرمت JSON و شامل موارد 1-شناسه (Id)، 2-عنوان صفحه (Title)، 3-نوع موجودیت (شامل 0: نامعلوم؛ 1:شخص؛ 2:مکان؛ 3:سازمان؛ 4:رویداد، 5:سایر)، 4-رتبه اهمیت مقاله (Rank)، 5-فضای نام (Namespace)، 6-لیست تغییرمسیرها به این صفحه (RedirectList)، 7-مشخصکننده ابهامزدایی (IsDisambiguati)، 8-تعداد ارجاعات به این صفحه (TargetLinksCount)، 8-بخش جعبه اطلاعات بصورت تفکیک شده (InfoBox)، 9-متن نرمالشده اصلی (Text)، 10-لینکهای به سایر صفحات (Links)، 11-لیست ردهها (Parents) است.
همچنین خروجی مدلهای زبانی مختلف آموزش داده شدهی بوسیله روشهای مدرن یادگیری عمیق از قبیل (word2vec، glove و fast-text) به مخرن مربوطه اضافه شدند.
برای اطلاع از جزئیات فیلدها بهمراه مثال و توضیحات به این صفحه مراجعه فرمایید. این پیکره هماکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.
فردوسنت (شبکه واژگان جامع زبان فارسی) و حسنگار (شبکه واژگان حسی فارسی)
ابتدا با استفاده از نگاشت مفاهیم (گروههای هممعنی) در شبکه واژگان پرینستون به زبان فارسی، شبکه واژگان جامع (فردوسنت) ساخته شده است. علاوه بر این با توجه احتمال درستی انتساب گروههای کلمه فارسی و انگلیسی، برای کلمات موجود در هر گروه هممعنی در فردوسنت، درجه اطمینان (اعتبار) محاسبه شده است.
سپس با استفاده از فردوسنت، میزان بار حسی محاسبه شده برای هر گروه هممعنی در شبکه واژگان حسی انگلیسی (SentiWordNet V3.0) به گروههای هممعنی متناظر با آن در حسنگار نگاشت شده است. پس در واقع با ابهامزدایی مفاهیم شبکه واژگان حسی انگلیسی، یک شبکه واژگان حسی برای زبان فارسی ایجاد شده است. از شبکه واژگان حسی فارسی میتوان به عنوان یک واژهنامه حسی مرجع برای زبان فارسی استفاده نمود.
علاوه بر این، مجموعه پیکرهها و واژهنامههای حسی موجود در زبان فارسی که برای نظر کاوی (تحلیل احساسات) مفید هستند نیز گردآوری و همراه با مقالات مرتبط با آنها در مخزن این پیکره قرار داده شده است.
برای اطلاع از الگوریتم و جزئیات تولید فردوسنت و حسنگار به این مقاله مراجعه فرمایید. برای دریافت نسخه فعلی فردوسنت و حسنگار به این منبع مراجعه فرمایید.
سپس با استفاده از فردوسنت، میزان بار حسی محاسبه شده برای هر گروه هممعنی در شبکه واژگان حسی انگلیسی (SentiWordNet V3.0) به گروههای هممعنی متناظر با آن در حسنگار نگاشت شده است. پس در واقع با ابهامزدایی مفاهیم شبکه واژگان حسی انگلیسی، یک شبکه واژگان حسی برای زبان فارسی ایجاد شده است. از شبکه واژگان حسی فارسی میتوان به عنوان یک واژهنامه حسی مرجع برای زبان فارسی استفاده نمود.
علاوه بر این، مجموعه پیکرهها و واژهنامههای حسی موجود در زبان فارسی که برای نظر کاوی (تحلیل احساسات) مفید هستند نیز گردآوری و همراه با مقالات مرتبط با آنها در مخزن این پیکره قرار داده شده است.
برای اطلاع از الگوریتم و جزئیات تولید فردوسنت و حسنگار به این مقاله مراجعه فرمایید. برای دریافت نسخه فعلی فردوسنت و حسنگار به این منبع مراجعه فرمایید.
پیکره اخبار فارسییار (مناسب برای زمینههای مختلف متن کاوی)
پیکره اخبار شامل دو بخش (مجموعه اخبار دو خبرگزاری) با اهداف مختلف است. بخش اول پیکره اخبار شامل اخبار سال 1397 خبرگزاری باشگاه خبرنگاران جوان
است. در این پیکره بخشهای (فیلدهای) مختلف حدود 1000000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمعآوری شده، استفاده از این پیکره علاوه بر تحلیلهای آماری و ساخت مدلهای تعبیه کلمات، برای کاربردهای مختلف متن کاوی نظیر خلاصهسازی خودکار، تشخیص موضوع (زمینه) متن خبر (دستهبندی متون) و میزان مفید بودن نظرات، قابل استفاده است.
در این بخش از پیکره (YJC) برای هر خبر فیلدهای 1-عنوان خبر 2-تاریخ انتشار 3-گروه/نوع خبری (فارسی و انگلیسی) 4-متن نرمالشده خلاصه خبر 5-متن نرمالشده اصلی خبر 6-برچسبهای خبر 7-نظرات (شامل تاریخ، تعداد رای مثبت و منفی، متن نظر) وجود دارد.
بخش دوم پیکره اخبار شامل اخبار سال 1397 خبرگزاری فارسنیوز است. در این پیکره بخشهای (فیلدهای) مختلف حدود 286000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمعآوری شده، استفاده از این پیکره برای مسائل زیادی در حوزه متن کاوی قابل استفاده است.
در این بخش از پیکره اخبار (FarsNews) برای هر خبر یک سطر از فایل json شامل فیلدهای ذیل در نظر گرفته شده است: 1-عنوان خبر 2-تاریخ انتشار 3-گروه/نوع خبری (فارسی و انگلیسی) 4-متن نرمالشده خلاصه خبر 5-متن نرمالشده اصلی خبر 6-نظرات شامل: 1.تاریخ، 2.مشخصات نویسنده، 3.متن نظر، 4.پاسخهای هر نظر (در صورت وجود)
این پیکره هماکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.
بخش دوم پیکره اخبار شامل اخبار سال 1397 خبرگزاری فارسنیوز است. در این پیکره بخشهای (فیلدهای) مختلف حدود 286000 خبر (بصورت تفکیک شده) در قالب فایل JSON ذخیره شده است. با توجه به اطلاعات مفید جمعآوری شده، استفاده از این پیکره برای مسائل زیادی در حوزه متن کاوی قابل استفاده است.
در این بخش از پیکره اخبار (FarsNews) برای هر خبر یک سطر از فایل json شامل فیلدهای ذیل در نظر گرفته شده است: 1-عنوان خبر 2-تاریخ انتشار 3-گروه/نوع خبری (فارسی و انگلیسی) 4-متن نرمالشده خلاصه خبر 5-متن نرمالشده اصلی خبر 6-نظرات شامل: 1.تاریخ، 2.مشخصات نویسنده، 3.متن نظر، 4.پاسخهای هر نظر (در صورت وجود)
این پیکره هماکنون در این آدرس برای استفاده محققان بصورت رایگان قرار داده شده است.