طبقهبندی موضوعی پیکرهبنیاد اسامی زبان فارسی در متون خبری |
کد مقاله : 1092-ICIL2024-FULL |
نویسندگان |
محمدهادی فلاحی * عضو عیات علمی گروه زبان شناسی رایانه ای |
چکیده مقاله |
در پژوهش حاضر، اسامی موجود در چهار پیکرهی زبانی فارسی، استخراج شد و جایگاه مهمترین آنها در طبقهبندی موضوعی مشخص شد. مراحل انجام پژوهش بدین شرح بود: الف) تعیین طبقههای موضوعی متون: بدین منظور طبقهبندی هشتگانهای توسط پژوهشگر با مشورت تعدادی از متخصصان مربوطه ارائه گردید. این طبقهبندی شامل طبقههای سیاسی، اقتصادی، اجتماعی، ورزشی، علمی، فرهنگی، بهداشت و پزشکی و حقوقی است. ب) پیشپردازش متون پیکرهها: تلاش شد تا بر پایهی پیکرهی بیجنخان، سایر پیکرهها یکسانسازی شوند. ج) محاسبه برچسبهای اجزای کلام و ریشهیابی: شناسایی برچسب اجزای سخن توسط ابزار برچسبزن صرفی «هضم» و نرمافزار پایتون صورت گرفت. ریشهیابی نیز براساس برچسب صرفی و اطلاعات موجود در «پیکرهی نحوی زبان فارسی» توسط نرمافزاری که برای همین پژوهش تهیه شد، به صورت خودکار انجام شد. در مواردی که نرمافزار فوق به درستی نمیتوانست ریشهی واژهها را تشخیص دهد، نتایج با دخالت انسانی بررسی شد. د) محاسبه آماری میزان کلیدواژگی و در نهایت، هر کدام از این طبقات بومی به طبقهی متناظر خود در این تحقیق نگاشت شد و بدین صورت نتایج نهایی برای مجموع پیکرهها به دست آمد. نتایج پژوهش عبارتند از: اسمهای مهم (کلیدواژگی بالا) در حوزههای اقتصادی، بهداشتی، حقوقی و ورزشی به جز مواردی معدود، همگی تخصصی آن حوزهها هستند. در حوزههای سیاسی و فرهنگی، اسامی مهم تخصصی آن حوزهها بیش از نیمی از اسامی مهم استخراج شده هستند. در حوزههای علمی و اجتماعی به دلیل گستردگی و گوناگونی رشتههای علمی و اجتماعی نمیتوان به اسامی مهم تخصصی این حوزهها قائل بود. |
کلیدواژه ها |
پیکرهی زبانی، اسم، کلیدواژگی، طبقه بندی موضوعی |
وضعیت: پذیرفته شده برای ارائه شفاهی |