فراخوان مشارکت عمومی

فراخوان مشارکت عمومی در پروژه اصلاح برچسب‌های پیکره متنی موجودیت‌های نامی زبان فارسی

دعوت به همکاری

هدف ما این است که با مشارکت شما دوستان، بتوانیم پیکره برچسب‌خورده بزرگ و منبع باز (رایگان) ایجاد شده برای تشخیص موجودیت‌های نامدار در زبان فارسی را اصلاح کنیم. تا بدین ترتیب، با حل یکی از چالش‌های زبان فارسی، قدم کوچکی برای احیای این زبان برداشته باشیم. برای این منظور پیکره‌ای در حدود ۲۵ میلیون توکن (واژه یا علامت) در قالب (نزدیک به) یک میلیون جمله از متون ویکی‌پدیا استخراج و با روش‌های مختلف بصورت خودکار برچسب‌گذاری اولیه شده است. از شما دوستان خواهشمندیم که با تصحیح برچسب‌های اشتباه یا برچسب‌زنی کلمات جاافتاده ما را در این راه یاری فرمایید. برای بالا بردن دقت کار هر جمله توسط دو نفر از دوستان مشارکت‌کننده، اصلاح و درصورت توافق‌نظر به پیکره اصلی اضافه می‌شود.

برای انجام این کار، سامانه‌ای به آدرس ذیل ایجاد شده که می‌توانید با ثبت‌نام و ورود به این سامانه در اوقات فراغت خود، بوسیله گوشی هوشمند یا سیستم (کامپیوتر) خود، براحتی با مصرف حجم کمی از اینترنت کار اصلاح برچسب‌گذاری را انجام بفرمایید.

خروجی پیکره برچسب‌گذاری شده بصورت هفتگی در این آدرس برای پژوهشگران و علاقه‌مندان به تحقیقات پردازش زبان طبیعی قابل دسترس خواهد بود.

توضیح درباره ابزار تشخیص موجودیت‌های نامی

یکی از ابزارهای مهم جهت استخراج اطلاعات از متن، شناسایی موجودیت‌های نامدار[۱] است. تشخیص موجودیت‌های نامدار (نامی) به این معناست که اسامی خاص در یک متن را بتوان تشخیص داد و آنها را به رده‌های مشخصی دسته‌بندی کرد. این رده‌ها چیزهای مختلفی می‌توانند باشند که هدف ما استخراج رده‌های ذیل است:

  1. نام شخص (نام کوچک یا فامیل افراد و القاب و عناوین منتسب و یا همراه آنها)
  2. نام سازمان (شرکت، نهاد‌ها، ادارات و تشکل‌های خصوصی یا دولتی، نام بخش‌های ادارات، گروه، تیم یا باشگاه ورزشی، وزارت، نام کارخانه یا نام فروشگاه معروف یا اصناف، نام نشریات و خبرگزاری‌ها و …)
  3. نام مکان (کشور، استان، شهر، روستا، کوه، رودخانه، دریا، صحرا، بنای تاریخی، خیابان، مجتمع مسکونی، منطقه یا ناحیه خاص، اشاره به مکان مدرسه یا کارخانه یا مغازه یا ایستگاه مترو یا حرم یا … در متن)[۲]
  4. نام یا عبارت رویداد (حادثه، تصادف، قتل، جنگ، سرقت، آتش‌سوزی، عملیات تروریستی، برگزاری مسابقات مختلف، انتخابات، مذاکرات یا اجلاس، جشن یا کنگره یا … ، توافق‌نامه، تظاهرات، مناسبت و …)
  5. عبارت زمان یا تاریخ (روز هفته، ماه، سال، ساعت، تاریخ، قرن، دوره یا عصر زمانی، اشاره به تاریخ یا زمان خاص یا نسبی مثل “دیروز”، “یک ساعت قبل”، “نیمه شب” و …)

رویکردهای شناسایی موجودیت‌های نامی

متاسفانه تهیه لیست اسامی خاص خیلی وقت‌ها کمکی چندانی نمی‌کند، چون نوعاً کلماتی وجود دارند که می‌توانند با توجه به جمله و متن، در چند رده قرار بگیرند. برای مثال :

  • “۱۱ سپتامبر”، می‌تواند اشاره به حادثه ۱۱ سپتامبر داشته و از رده رویداد یا از رده تاریخ/زمان باشد.
  • “صیاد شیرازی” می‌تواند در جمله به یک خیابان (رده مکان) یا نام یک شخص (رده اشخاص) باشد.

دو رویکرد استفاده از الگوهای متنی[۳] و استفاده از روش‌های یادگیری ماشین برای حل این مشکل وجود دارد. با توجه به ضعف‌ها و موارد استثنای زیاد، استفاده از رویکرد الگوهای متنی به تنهایی خیلی کاربردی نیست و رویکرد مبتنی بر روش‌های یادگیری ماشین توصیه می‌شود. در روش‌های یادگیری ماشین از قواعد از پیش‌تعیین شده و لیست لغات استفاده نمی‌شود و به جای آن از حجم زیادی از داده‌های برچسب‌خورده (یا در برخی موارد بدون برچسب) استفاده می‌شود. منظور از پیکره برچسب خورده، متون زیادی است که موجودیت‌های آن بوسیله‌ی یک روش دستی یا نیمه دستی (توسط انسان) مشخص (برچسب‌گذاری) شده باشد. از پیکره برچسب خورده برای فرایند یادگیری روش‌های هوشمند استفاده می‌شود. اما متاسفانه چالش اصلی این رویکرد، عدم وجود پیکره برچسب خورده مناسب و کافی برای زبان فارسی است.

بزودی ابزار NER فارسی جهت استفاده محققین در سامانه متن کاوی قرار داده خواهد شد.

تصاویری از سامانه آماده شده برای اصلاح برچسب‌های NER کلمات

تصویر سامانه برچسب‌گذاری NER در گوشی تصویر سامانه برچسب‌گذاری NER در گوشی

تصویری از سامانه آماده شده برای اصلاح برچسب‌های NER کلمات

تصویری از سامانه آماده شده برای اصلاح برچسب‌های NER کلمات

تصویری از سامانه آماده شده برای اصلاح برچسب‌های NER کلمات

[۱] Named Entity Recognition

[۲] لطفا توجه شود که محل اشیا و … مثل “زیر میز”، “در قلبم” جزء اسامی مکان نیست

[۳]  مثلا آقای ؟ اشاره به نام شخص دارد