کرسی علمی ترویجی عضو هیئت علمی مرکز آموزش عالی پلدختر برگزار شد

کرسی علمی، ترویجی دکتر محمد احمدی، عضو هیئت علمی گروه آموزشی زبان انگلیسی مرکز آموزش عالی پلدختر (وابسته به دانشگاه لرستان) با عنوان «استفاده از ظرفیتهای هوش مصنوعی برای سنجش مهارتهای نوشتاری زبان انگلیسی»، برگزار شد.
ناقدان: دکتر حسن شاهی (عضو هیئت علمی مرکز آموزش عالی پلدختر)، سیما نور محمدی (مدرس مرکز آموزش عالی پلدختر).
دبیر نشست: مهندس علی چراغی نیا (کارشناس فناوری اطلاعات و مدرس مرکز آموزش عالی پلدختر).
به گزارش روابط عمومی دانشگاه لرستان به نقل از روابط عمومی مرکز آموزش عالی پلدختر، با همکاری معاونت پژوهشی دانشکده ادبیات و علوم انسانی دانشگاه لرستان، کرسی علمی ترویجی استفاده از ظرفیتهای هوش مصنوعی برای سنجش مهارتهای نوشتاری زبان انگلیسی در تاریخ ۱۵ اردیبهشت ۱۴۰۴ در مرکز آمرزش عالی پلدختر برگزار شد.
هدف از این کرسی، ارائه نتایج پروژه ای بود که در آن قابلیتهای مدل های زبان بزرگ (نظیر GPT-4) در ارزیابی آزمون های نوشتاری بین المللی (مانند IELTS Writing Task 2) با معیارهای معتبر انسانی مقایسه شد.
اهمیت تحقیق: افزایش عدالت، و شفافیت سنجش مهارت های نوشتاری و شخصی سازی بازخورد های تصحیحی.
در این پژوهش، سه استراتژی اصلی برای بهرهگیری از مدلهای زبانی در ارزیابی آیلتس بررسی شد:
_ طراحی و اصلاح دستورالعملهای ورودی برای مدل.
_ طراحی دستورالعملهای چند نمونهای.
_ آموزش بیشتر مدل بر روی مجموعهای از پاسخهای نمرهگذاریشده.
برخی مهمترین نکاتی که مطرح شد:
این ارائه با هدف بررسی میزان همبستگی ارزیابیهای انسانی و مدل زبان GPT-4 در بخش Writing Task 2 آزمون IELTS و سنجش تأثیر سه تکنیک مهندسی پرامپت ـ از جمله اصلاح پرامپت، یادگیری چندنمونهای و تنظیم دقیق مدل ـ طراحی شد. در بخش کمی پژوهش، ضریب کاپا برای هر یک از این روشها محاسبه گردید که نشان داد اصلاح پرامپت با κ=0.169 در سطح ضعیف همبستگی قرار دارد، یادگیری چندنمونهای در بازه κ=0-0.4 همبستگی متوسط تا خوب را نشان داد و روش تنظیم دقیق با κ=0.736 بهترین همبستگی را با نمرههای انسانی ارائه کرد. این نتایج گواه آن است که آموزش اختصاصی مدل بر اساس دادههای نمرهگذاریشده میتواند همخوانی ارزیابی ماشینی با داوری انسانی را تا حد زیادی افزایش دهد.
در تحلیل کیفی، بازخوردهای انسانی معمولاً جامع و چندوجهی بود و بر وضوح استدلال، پیوستگی متن، درگیرسازی خواننده و کیفیت تفکر انتقادی تأکید داشت.
در مقابل، سیستم GPT-4 بیشتر به جنبههای سطحی از قبیل خطاهای دستوری، انسجام ساختاری و دقت واژگانی میپرداخت و کمتر به تأثیر این خطاها بر تجربه واقعی خواننده توجه نشان میداد.
مثلاً در بخشی از بازخورد ماشینی آمده بود: «خطاهای مکرر گرامری و انتخاب واژگان نامناسب وضوح و پیوستگی متن را کاهش داده است. این تفاوتها نشان میدهد با وجود پیشرفتهای مهندسی پرامپت، هنوز شکافی معنی دار در توانایی «درک زمینهای و تحلیل عمیق» میان انسان و ماشین باقی است.
در نتیجه، پیشنهاد شد از رویکرد ارزیابی ترکیبی بهره گرفته شود تا نقاط قوت هر دو روش انسانی و ماشینی بهطور همزمان بهکار گرفته شود.
همچنین توسعه چارچوبهای روانسنجی ویژه برای ارزیابی مدلهای هوش مصنوعی و غنیسازی پرامپتها با نمونهها و نشانههای بافتی–بلاغی میتواند گامی مؤثر در کاهش شکاف ارزیابی ایجادشده باشد.