طبقه‌بندی موضوعی پیکره‌بنیاد اسامی زبان فارسی در متون خبری
کد مقاله : 1092-ICIL2024-FULL
نویسندگان
محمدهادی فلاحی *
عضو عیات علمی گروه زبان شناسی رایانه ای
چکیده مقاله
در پژوهش حاضر، اسامی موجود در چهار پیکره‌ی زبانی فارسی، استخراج شد و جایگاه مهم‌ترین آنها در طبقه‌بندی موضوعی مشخص شد. مراحل انجام پژوهش بدین شرح بود: الف) تعیین طبقه‌های موضوعی متون: بدین منظور طبقه‌بندی هشت‌گانه‌ای توسط پژوهشگر با مشورت تعدادی از متخصصان مربوطه ارائه گردید. این طبقه‌بندی شامل طبقه‌های سیاسی، اقتصادی، اجتماعی، ورزشی، علمی، فرهنگی، بهداشت و پزشکی و حقوقی است. ب) پیش‌پردازش متون پیکره‌ها: تلاش شد تا بر پایه‌ی پیکره‌ی بیجن‌خان، سایر پیکره‌ها یکسان‌سازی شوند. ج) محاسبه برچسب‌های اجزای کلام و ریشه‌یابی: شناسایی برچسب اجزای سخن توسط ابزار برچسب‌زن صرفی «هضم» و نرم‌افزار پایتون صورت گرفت. ریشه‌یابی نیز براساس برچسب صرفی و اطلاعات موجود در «پیکره‌ی نحوی زبان فارسی» توسط نرم‌افزاری که برای همین پژوهش تهیه شد، به صورت خودکار انجام شد. در مواردی که نرم‌افزار فوق به درستی نمی‌توانست ریشه‌ی واژه‌ها را تشخیص دهد، نتایج با دخالت انسانی بررسی شد. د) محاسبه آماری میزان کلیدواژگی و در نهایت، هر کدام از این طبقات بومی به طبقه‌ی متناظر خود در این تحقیق نگاشت شد و بدین صورت نتایج نهایی برای مجموع پیکره‌ها به دست آمد. نتایج پژوهش عبارتند از: اسم‌های مهم (کلیدواژگی بالا) در حوزه‌های اقتصادی، بهداشتی، حقوقی و ورزشی به جز مواردی معدود، همگی تخصصی آن حوزه‌ها هستند. در حوزه‌های سیاسی و فرهنگی، اسامی مهم تخصصی آن حوزه‌ها بیش از نیمی از اسامی مهم استخراج شده هستند. در حوزه‌های علمی و اجتماعی به دلیل گستردگی و گوناگونی رشته‌های علمی و اجتماعی نمی‌توان به اسامی مهم تخصصی این حوزه‌ها قائل بود.
کلیدواژه ها
پیکره‌ی زبانی، اسم، کلیدواژگی، طبقه بندی موضوعی
وضعیت: پذیرفته شده برای ارائه شفاهی
login