اخبار

کرسی علمی ترویجی عضو هیئت علمی مرکز آموزش عالی پلدختر برگزار شد

۱۴۰۴/۰۲/۱۹

کرسی علمی، ترویجی دکتر محمد احمدی، عضو هیئت علمی گروه آموزشی زبان انگلیسی مرکز آموزش عالی پلدختر (وابسته به دانشگاه لرستان) با عنوان «استفاده از ظرفیت‌های هوش مصنوعی برای سنجش مهارت‌های نوشتاری زبان انگلیسی»، برگزار شد.

ناقدان: دکتر حسن شاهی (عضو هیئت علمی مرکز آموزش عالی پلدختر)، سیما نور محمدی (مدرس مرکز آموزش عالی پلدختر).

دبیر نشست: مهندس علی چراغی نیا (کارشناس فناوری اطلاعات و مدرس مرکز آموزش عالی پلدختر).

به گزارش روابط عمومی دانشگاه لرستان به نقل از روابط عمومی مرکز آموزش عالی پلدختر، با همکاری معاونت پژوهشی دانشکده ادبیات و علوم انسانی دانشگاه لرستان، کرسی علمی ترویجی استفاده از ظرفیت‌‌های هوش مصنوعی برای سنجش مهارت‌‌های نوشتاری زبان انگلیسی در تاریخ ۱۵ اردیبهشت ۱۴۰۴ در مرکز آمرزش عالی پلدختر برگزار شد.

هدف از این کرسی، ارائه نتایج پروژه‌ ای بود که در آن قابلیت‌‌های مدل ‌های زبان بزرگ (نظیر GPT-4) در ارزیابی آزمون‌ های نوشتاری بین المللی (مانند IELTS Writing Task 2) با معیارهای معتبر انسانی مقایسه شد.

اهمیت تحقیق: افزایش عدالت، و شفافیت سنجش مهارت های نوشتاری و شخصی سازی بازخورد های تصحیحی.

در این پژوهش، سه استراتژی اصلی برای بهره‌گیری از مدل‌های زبانی در ارزیابی آیلتس بررسی شد:

_ طراحی و اصلاح دستورالعمل‌های ورودی برای مدل.

_ طراحی دستورالعمل‌های چند نمونه‌ای.

_ آموزش بیشتر مدل بر روی مجموعه‌ای از پاسخ‌های نمره‌گذاری‌شده.

برخی مهم‌ترین نکاتی که مطرح شد:

این ارائه با هدف بررسی میزان همبستگی ارزیابی‌های انسانی و مدل زبان GPT-4 در بخش Writing Task 2 آزمون IELTS و سنجش تأثیر سه تکنیک مهندسی پرامپت ـ از جمله اصلاح پرامپت، یادگیری چندنمونه‌ای و تنظیم دقیق مدل ـ طراحی شد. در بخش کمی پژوهش، ضریب کاپا برای هر یک از این روش‌ها محاسبه گردید که نشان داد اصلاح پرامپت با κ=0.169 در سطح ضعیف همبستگی قرار دارد، یادگیری چندنمونه‌ای در بازه κ=0-0.4 همبستگی متوسط تا خوب را نشان داد و روش تنظیم دقیق با κ=0.736 بهترین همبستگی را با نمره‌های انسانی ارائه کرد. این نتایج گواه آن است که آموزش اختصاصی مدل بر اساس داده‌های نمره‌گذاری‌شده می‌تواند همخوانی ارزیابی ماشینی با داوری انسانی را تا حد زیادی افزایش دهد.

در تحلیل کیفی، بازخوردهای انسانی معمولاً جامع و چندوجهی بود و بر وضوح استدلال، پیوستگی متن، درگیرسازی خواننده و کیفیت تفکر انتقادی تأکید داشت.

در مقابل، سیستم GPT-4 بیشتر به جنبه‌های سطحی از قبیل خطاهای دستوری، انسجام ساختاری و دقت واژگانی می‌پرداخت و کمتر به تأثیر این خطاها بر تجربه واقعی خواننده توجه نشان می‌داد.

مثلاً در بخشی از بازخورد ماشینی آمده بود: «خطاهای مکرر گرامری و انتخاب واژگان نامناسب وضوح و پیوستگی متن را کاهش داده است. این تفاوت‌ها نشان می‌دهد با وجود پیشرفت‌های مهندسی پرامپت، هنوز شکافی معنی دار در توانایی «درک زمینه‌ای و تحلیل عمیق» میان انسان و ماشین باقی است.

در نتیجه، پیشنهاد شد از رویکرد ارزیابی ترکیبی بهره گرفته شود تا نقاط قوت هر دو روش انسانی و ماشینی به‌طور همزمان به‌کار گرفته شود.

همچنین توسعه چارچوب‌های روان‌سنجی ویژه برای ارزیابی مدل‌های هوش مصنوعی و غنی‌سازی پرامپت‌ها با نمونه‌ها و نشانه‌های بافتی–بلاغی می‌تواند گامی مؤثر در کاهش شکاف ارزیابی ایجادشده باشد.

گزارش تصویری

۱۴۰۴/۰۲/۱۹ - ۲۱:۱۷
۴۷۲ بازدید