Prompt Engineering: Part 7 - 07 - Using Large Language Models to Grade Each Other

Part 7 - 07 - Using Large Language Models to Grade Each Other

View To complete this activity, at least 4 minutes of engagement are required.

Engagement duration: 17 hours, 56 minutes, 42 seconds

در این ویدئو مدرس به مسئله مهم پایداری و ارزیابی پرامپت‌ها می‌پردازد. او توضیح می‌دهد که مدل‌های زبانی بزرگ به سرعت در حال تحول هستند و نسخه‌های جدیدی همچون GPT-4، LLaMA یا Vicuna به طور مداوم معرفی می‌شوند. این تغییرات می‌تواند بر کارایی پرامپت‌هایی که برای نسخه‌های قبلی طراحی شده‌اند تأثیر بگذارد. بنابراین پرسش اساسی این است که چگونه می‌توان مطمئن شد پرامپت‌ها در گذر زمان همچنان مؤثر باقی می‌مانند. یکی از روش‌ها این است که از خود مدل‌های زبانی برای ارزیابی و درجه‌بندی عملکرد یکدیگر استفاده کنیم. این بخش نشان می‌دهد که چگونه می‌توان از توانایی‌های خودکار مدل‌ها برای حفظ کیفیت و سازگاری پرامپت‌ها در شرایط متغیر بهره گرفت.