التعلم المعزز من ردود الفعل البشرية

التعلم المعزز من ردود الفعل البشرية أو التعليم بواسطة التعزيز من الملاحظات البشرية^[1] (RLHF) هو أسلوب من أساليب تعلّم الآلة، يستخدم الملاحظات البشرية لتحسين نماذج تعلّم الآلة من أجل التعلم الذاتي بشكل أكثر كفاءة.^[2] تعمل تقنيات التعليم بواسطة التعزيز على تدريب البرامج على اتخاذ القرارات التي تحصل على أكثر قدر ممكن من المكافآت، مما يجعل نتائجها أكثر دقة.^[3] في هذا الأسلوب تُدمَج الملاحظات البشرية في دالة المكافآت، لذلك يمكن لنموذج تعلّم الآلة أداء مهام أكثر تماشيًا مع الأهداف والرغبات والاحتياجات البشرية.^[4] يُستخدَم أسلوب التعليم بواسطة التعزيز من الملاحظات البشرية في جميع تطبيقات الذكاء الاصطناعي المولّد، بما في ذلك نماذج اللغة الكبيرة (LLM).^[5]^[6]^[7]

الخلفية والدافع

إن تطوير النماذج القائمة على التغذية الراجعة البشرية يكتسب أهمية بالغة عندما تكون المهمة معقدة التحديد، إلا أنها سهلة التقييم.^[8] مثال على ذلك هو تدريب نموذج لإنشاء نص آمن ومفيد وخالٍ من الأضرار كالتحيز أو السمية أو المحتوى الضار بأي شكل. قد يكون من الصعب والمستهلك للوقت أن يطلب من البشر إنشاء أمثلة نصية ضارة وغير ضارة يدويًا. ومع ذلك، يجيد البشر تقييم ومقارنة ضرر النصوص التي ينتجها الذكاء الاصطناعي بسرعة. لذا، فإن الهدف العملي هو تمكين النموذج من الاستفادة من هذا النوع من التغذية الراجعة البشرية لتحسين إنتاج النص.^[9]

رغم الفوائد الجلية لاستخدام التغذية الراجعة البشرية في تدريب النماذج، إلا أن الجهود السابقة، بما في ذلك تلك التي اعتمدت على التعلم المعزز، واجهت تحديات كبيرة. كانت معظم المحاولات إما محدودة النطاق وصعبة التعميم، مما أدى إلى فشلها في المهام الأكثر تعقيدًا، ^[10]^[11]^[12]^[13] أو عانت من صعوبات في التعلم من وظائف المكافأة النادرة (التي تفتقر إلى المعلومات المحددة وترتبط بكميات كبيرة من النص في الوقت نفسه) أو الضوضائية (التي تقدم مكافأة غير متسقة لنفس النتائج).^[14]^[15]

لم يكن التعلم المعزز من ردود الفعل البشرية أول طريقة ناجحة لاستخدام التغذية الراجعة البشرية في التعلم المعزز، ولكنه أحد أكثر الطرق استخدامًا. وقد تم تقديم الأساس لهذا النوع من التعلم كمحاولة لإنشاء خوارزمية عامة للتعلم من كمية معقولة من التغذية الراجعة البشرية.^[8]^[16] وقدمت شركة أوبن أيه آي الخوارزمية المستخدمة حاليًا في ورقة بحثية حول تحسين استمرارية النص أو تلخيصه بناءً على التغذية الراجعة البشرية، وبدأت هذه الطريقة في اكتساب الشعبية عندما استخدمتها الشركة نفسها في ورقتها حول جي بي تي-3.^[17]^[18]^[19] كما أظهر التعلم المعزز من ردود الفعل البشرية تحسين قدرة عملاء التعلم المعزز على التحمل وقدرتهم على الاستكشاف، مما أدى إلى عملية تحسين أكثر كفاءة في التعامل مع عدم اليقين واستكشاف بيئته بفاعلية بحثًا عن المكافأة الأعلى.^[20]

جمع ردود الفعل البشرية

تعتمد عملية التعلم المعزز من ردود الفعل البشرية بشكل كبير على جمع بيانات دقيقة وشاملة حول تفضيلات المستخدمين.^[19]^[21]^[22] عادةً ما تُجمع هذه البيانات من خلال تصنيفات بشرية لحالات سلوك الوكيل، حيث يمكن استخدام أنظمة مثل نظام تصنيف إيلو لتقييم هذه التصنيفات.^[16] رغم أن تصنيف المخرجات هو الطريقة الأكثر شيوعًا، إلا أن الأبحاث الحديثة تستكشف طرقًا أكثر مرونة مثل التغذية الراجعة الرقمية واللغوية.^[23] من المثير للاهتمام أن التعلم المعزز من ردود الفعل البشرية يتطلب كمية بيانات أقل بكثير مما هو مطلوب في تقنيات التعلم الأخرى.^[8] ومع ذلك، فإن زيادة كمية البيانات لا تؤدي بالضرورة إلى تحسين الأداء بشكل كبير، بل قد يكون من الأفضل التركيز على زيادة تعقيد نموذج المكافأة.^[18] رغم ذلك فإن تنوع البيانات أمر حيوي لتجنب التحيزات التي قد تنشأ من الاعتماد على مجموعة محدودة من المعلقين.^[19] أظهرت الدراسات أن استخدام مقدر الاحتمالية القصوى (MLE) مع وظائف مكافأة خطية في نماذج مثل برادلي-تيري-لوس وبلاكيت-لوس يؤدي إلى تحسين دقة التنبؤ بالتفضيلات البشرية. هذا يعني أنه عندما يتم تدريب النموذج على بيانات مقارنات زوجية أو متعددة الجوانب تتبع نموذجًا خطيًا، فإنه يصبح قادرًا على التنبؤ بدقة أكبر بالخيارات التي يفضلها الأشخاص في المستقبل. هذه النتيجة تدل على أن النماذج التي تعتمد على مبادئ بسيطة ومتسقة قادرة على تعلم تفضيلات المستخدمين بفعالية.^[24]^[25]

أظهرت الدراسات أن نماذج جمع البيانات، سواء كانت متصلة بالإنترنت أم غير متصلة، تشكل تحديات فريدة في سياق التعلم المعزز من ردود الفعل البشرية. في النماذج غير المتصلة، حيث يتم تدريب السياسات على مجموعات بيانات ثابتة، أثبت مقدر الاحتمالية القصوى الذي يدمج حد الثقة الأدنى كدالة مكافأة كفاءة عالية.^[24]^[26] علاوة على ذلك أشارت الأبحاث إلى أن التعامل المباشر مع المقارنات المتعددة (K-wise) يتفوق على تحويلها إلى مقارنات زوجية في تحسين دقة التنبؤ. ومع ذلك فإن طبيعة التفاعل المستمر مع البيئة في النماذج المتصلة تثير تحديات إضافية تتعلق بتعقيد العينات وتحديث السياسات.^[19]^[26]^[27] في سياق التفاعل مع الشبكة العنكبوتية، عند جمع آراء بشرية عن طريق المقارنات الثنائية وفقًا لنموذج برادلي-تيري-لوس بهدف تقليل الندم (أي الفرق في الأداء مقارنة بأداء مثالي)، تبين أن تقدير الاحتمالية القصوى الذي يشمل حد الثقة العلوي كقيمة مكافأة يمكن توظيفه في تصميم خوارزميات تعلم فعالة من حيث العينات (أي تتطلب كمية محدودة من بيانات التدريب). يكمن التحدي الجوهري في التعلم المعزز من خلال آراء بشرية عند التعلم من المقارنات الثنائية في طبيعة السياسات المثلى غير الماركوفية. بخلاف السيناريوهات البسيطة التي لا تتطلب الاستراتيجية المثلى تذكر الأفعال السابقة، فإن التعلم المعزز من خلال آراء بشرية غالبًا ما تتوقف أفضل مسارات العمل فيه على الأحداث والقرارات السابقة، مما يجعل الاستراتيجية معتمدة بشكل أساسي على الذاكرة.^[25]

التطبيقات

أثبتت تقنية التعلم المعزز من خلال ردود الفعل البشرية فعاليتها في تطوير نماذج معالجة اللغة الطبيعية المتقدمة. في مهام معالجة اللغة الطبيعية المعقدة، مثل الحوار وتلخيص النصوص، يصعب تحديد مكافآت واضحة لتدريب النماذج.^[18]^[28] تتغلب تقنية التعلم المعزز من خلال ردود الفعل البشرية على هذه التحدي من خلال السماح لنا بتدريب نماذج اللغة على فهم وتلبية تفضيلات المستخدمين البشرية بشكل أفضل.^[8] يتم ذلك عن طريق جمع بيانات تدريب تعكس هذه التفضيلات وتستخدمها لتدريب نموذج مكافأة يوجه النموذج نحو توليد نتائج أكثر ملاءمة.^[19]^[29] تُعد نماذج مثل شات جي بي تي من أوبن أيه آي،^[21]^[30]^[31] وسبارو من ديب مايند، ^[32]^[33]^[34] وجيميناي من جوجل، ^[35] وكلود من أنثروبيك، ^[36] أمثلة بارزة على نماذج اللغة التي تم تدريبها باستخدام هذه التقنية، حيث تُظهر قدرة متقدمة على إجراء حوارات طبيعية وتقديم معلومات دقيقة ومفيدة.

في حقل الرؤية الحاسوبية استُخدم التعلم من خلال التعزيز مع ردود الفعل البشرية أيضًا لضبط نماذج تحويل النص إلى صورة. وقد أشارت الدراسات التي نجحت في استخدام هذا النهج إلى أن استخدام تنظيم تباعد كولباك - ليبلير في تعلم التعزيز مع ردود الفعل البشرية، والذي يهدف إلى منع السياسات المتعلمة من الانحراف بعيدًا عن النموذج غير المُنظم، قد ساعد في استقرار عملية التدريب عبر تقليل الإفراط في التكيف مع نموذج المكافأة. وقد لوحظ أن النتائج النهائية للصور الناتجة عن النماذج المدربة باستخدام تنظيم تباعد كولباك-ليبلر كانت ذات جودة أعلى بشكل ملحوظ مقارنةً بتلك التي دُربت دون هذا التنظيم.^[37]^[38] وقد حاولت طرق أخرى دمج ردود الفعل من خلال التدريب المباشر - بناءً على تعظيم المكافأة دون استخدام تعلم التعزيز - لكنها أقرت بأن نهج تعلم التعزيز مع ردود فعل بشرية من المرجح أن يؤدي بشكل أفضل بسبب توليد العينات عبر الإنترنت أثناء التحديثات وكذلك تنظيم تباعد كولباك-ليبلر المذكور سابقًا فوق النموذج السابق، مما يقلل من الإفراط في التكيف مع دالة المكافأة.^[39]

طبق تعلم التعزيز مع ردود فعل بشرية (RLHF) في البداية على مجالات متنوعة، مثل تطوير روبوتات ألعاب الفيديو الكلاسيكية ثنائية الأبعاد والمهام الروبوتية المحاكية. فعلى سبيل المثال، قامت شركتا OpenAI وDeepMind بتدريب نماذج ذكاء اصطناعي للعب ألعاب أتاري بناءً على التفضيلات البشرية. في التدريب التقليدي القائم على التعلم المعزز لهذه النماذج، كانت وظيفة المكافأة ترتبط ببساطة بمدى نجاح النموذج في اللعبة، عادةً بقياس النقاط المحرزة. أما في تعلم التعزيز مع ردود فعل بشرية، فكان يعرض على الإنسان مقطعان من أداء النموذج في اللعبة ليختار الأفضل منهما بناءً على معايير جمالية أو استراتيجية. هذه الطريقة مكنت النماذج من تحقيق أداء تنافسي دون الحاجة إلى الاعتماد فقط على النقاط المحرزة. بل إن هذا النهج تجاوز في بعض الأحيان أداء التعلم المعزز التقليدي، وذلك لأن تفضيلات الإنسان قد تحتوي على معلومات أكثر شمولية من مجرد النقاط المحرزة.^[8]^[40] حققت هذه النماذج أداءً متميزًا في العديد من البيئات التجريبية، وتفوقت في كثير من الأحيان على أداء البشر.^[41]

التدريب

في تقنية تعزيز التعلم من خلال ردود الفعل البشرية (RLHF)، يُدرب نموذجين مختلفين: نموذج المكافأة وسياسة التعلم المعزز. يتعلم نموذج المكافأة تحديد السلوك المرغوب بناءً على ردود الفعل البشرية، بينما تسترشد السياسة بنموذج المكافأة لتحديد أفعال الوكيل. وكثيرًا ما يتم تهيئة كلا النموذجين باستخدام نموذج لغوي ذاتي التراجع مُدرّب مسبقًا. ثم يُدرب هذا النموذج عادةً بطريقة إشرافية على مجموعة بيانات صغيرة نسبيًا من أزواج المُحفزات المقدمة إلى مساعد والإجابات المصاحبة لها، والتي كتبها معلقون بشريون. يستفيد نموذج المكافأة من البدء بنموذج مدرب مسبقًا، حيث يُهيئه ذلك لفهم اللغة ويركز التدريب صراحةً على تعلم التفضيلات البشرية، مما يُسرع العملية. بالإضافة إلى استخدامه لتهيئة نموذج المكافأة وسياسة التعلم المعزز، يُستخدم النموذج أيضًا لعينة البيانات التي سيتم مقارنتها بواسطة المعلقين.^[18]^[19]

ثم يُدرب نموذج المكافأة عن طريق استبدال الطبقة النهائية للنموذج السابق برأس انحدار مُهيأ عشوائيًا. يؤدي هذا التغيير إلى تحويل النموذج من مهمته الأصلية، وهي التصنيف على مفرداته، إلى إخراج رقم يتوافق مع درجة أي مُحفز واستجابة معطاة. يُدرب هذا النموذج على بيانات مقارنة التفضيلات البشرية التي جُمعت سابقًا من النموذج الإشرافي. على وجه الخصوص، يدرب لتقليل دالة الخسارة المتقاطعة التالية، التي تحفزه على تقديم توقعات تكون أقرب إلى التقييمات البشرية الفعلية:

${\mathcal {L}}(\theta )=-{\frac {1}{K \choose 2}}E_{(x,y_{w},y_{l})}[\log(\sigma (r_{\theta }(x,y_{w})-r_{\theta }(x,y_{l})))]$

حيث $K$ هو عدد الاستجابات التي قام المقيمون بتصنيفها، أما $r_{\theta }(x,y)$ فهو ناتج نموذج المكافأة للتعليم $x$ والإكمال $y$ ، و $y_{w}$ هو الإكمال المفضل على $y_{l}$ ، وتعني $\sigma (x)$ دالة السيجمويد، وتعني $E[X]$ القيمة المتوقعة.^[19] تقيس دالة الخسارة هذه الفرق بين توقعات نموذج المكافأة والقرارات التي اتخذها البشر. الهدف هو جعل تخمينات النموذج قريبة قدر الإمكان من تفضيلات البشر من خلال تقليل الفرق الذي تقيسه هذه المعادلة. في حالة المقارنات الزوجية فقط، يتم حذف العامل $1/{\tbinom {K}{2}}$ .^[18] بخلاف ذلك، تُستخدم جميع المقارنات ${\tbinom {K}{2}}$ من كل تعليم كتدريب دفعة واحدة.^[19] بعد التدريب، تُوحد مخرجات النموذج بحيث تكون اكتمالات المراجع ذات متوسط درجة 0.^[18]

وبالمثل لنموذج المكافأة، تُحسن السياسة اللغوية أيضًا بناءً على النموذج المدرب مُسبقًا والذي قد لا يتوافق بالضرورة مع التفضيلات البشرية. الهدف من هذه الخطوة الحساسة هو تكييف النموذج بشكل تدريجي ليكون أكثر انسجامًا مع التفضيلات البشرية عن طريق ضبط معاملاته ووزنه بناءً على المكافآت المستمدة من ردود الفعل البشرية. يمكن استخدام ناتج نموذج المكافأة كمكافأة يتم تعظيمها باستخدام التعلم المعزز لأزواج التعليمات والاستجابات.^[18] ثم تُقدم تعليمات عشوائية من مجموعة البيانات إلى السياسة لتوليد استجابات، مما يحاكي السيناريوهات الواقعية حيث يجب على الوكيل فهم التعليمات المتنوعة وتوليد الاستجابات المناسبة.

بالإشارة إلى سياسة التعلم المعزز المكتسبة بمعايير $\phi$ مثل $\pi _{\phi }^{\text{RL}}$ ، يمكننا تعريف دالة الهدف التالية:

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]$

حيث $D_{\pi _{\phi }^{\text{RL}}}$ هو توزيع التدريب الذي نستمد منه و $\pi ^{\text{SFT}}$ هو النموذج غير المتناسق المدرب سابقًا. تُستخدم الثابتة $\beta$ لضبط شدة بند عقوبة كولباك - ليبلير. تُطبق هذه العقوبة على أساس كل مفردة بين السياسة ومخرجات النماذج غير المتناسقة. الهدف منها هو تجنب ضبط السياسة بشكل مفرط، مما يضمن أن عملية التدريب لا تُتَخصص بشكل مفرط على بيانات التدريب الجديدة.^[18]^[19] يعمل بند كولباك - ليبلير هذا عن طريق معاقبة تباعد كولباك - ليبلير (مقياس البُعد الإحصائي بين التوزيعات) بين النموذج الذي يتم ضبطه بدقة والنموذج الإشرافي الأصلي. من خلال اختيار $\beta$ المناسب، يمكن للتدريب أن يوازن بين التعلم من البيانات الجديدة مع الاحتفاظ بالمعلومات المفيدة من النموذج الأصلي، مما يزيد من التعميم عن طريق تجنب الملاءمة المفرطة للبيانات الجديدة. بالإضافة إلى منع النموذج الجديد من إنتاج مخرجات تختلف كثيرًا عن النموذج الأصلي، فإن الدافع الثاني لإدراج بند كولباك - ليبلير هو السماح للسياسة باستكشاف البيئة بشكل أكبر عن طريق تشجيع المزيد من الإنتروبيا، مما يمكن أن يمنع النموذج من الانهيار إلى وضعية واحدة.^[18]

ببساطة تقيس دالة الهدف مدى تطابق استجابات النموذج مع التغذية الراجعة البشرية. يولد النموذج استجابات لمختلف الطلبات، ثم يُقيم كل استجابة بناءً على مدى توافقها مع تفضيلات البشر (كما يقيسها نموذج المكافأة) ومدى قربها من الاستجابات النموذجية المتوقعة. الهدف هو تحقيق التوازن بين تحسين جودة الاستجابات لتلائم تفضيلات المستخدمين والحفاظ على تنوع الاستجابات وعدم الانحراف كثيرًا عن المعرفة الأساسية التي اكتسبها النموذج خلال تدريبه الأولي. يساعد هذا الأمر النموذج على تقديم إجابات مفيدة ومقبولة للمستخدمين، مع الحفاظ على فهم شامل للغة وتجنب تكرار الإجابات النمطية.

عادة ما يُضاف مصطلح ثان إلى دالة الهدف للسماح للنموذج بالحفاظ على المعرفة التي اكتسبها قبل التدريب. هذا المصطلح يمنع النموذج من نسيان قدرته الأساسية على فهم اللغة أثناء تعلم مهام جديدة بناءً على التغذية الراجعة البشرية. هذا يتم عن طريق دمج مهمة إكمال النص الأصلي مع المهام الجديدة. وبالتالي، فإن دالة الهدف النهائية تكون على النحو التالي:

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]+\gamma E_{x\sim D_{\text{pretrain}}}[\log(\pi _{\phi }^{\text{RL}}(x))]$

حيث يتحكم $\gamma$ في قوة هذا الحد الإضافي و $D_{\text{pretrain}}$ هو توزيع نص التدريب المسبق الأصلي.^[19] يمكن بعد ذلك استخدام دالة الهدف هذه مباشرةً لتدريب السياسة باستخدام خوارزمية تحسين السياسة القريبة ^{[الإنجليزية]}.^[18]^[19]

في المجمل، تحدد دالة الهدف هذه طريقة تعديل سياسة التعلم المعزز، ممزوجةً بهدف التوافق مع ردود الفعل البشرية والحفاظ على فهم النموذج الأصلي للغة.

القيود

يعاني التعلم من خلال التعزيز مع ردود الفعل البشرية من تحديات في جمع ردود الفعل البشرية، وتعلم نموذج المكافأة، وتحسين السياسة.^[42] قد تختلف جودته واتساقه اعتمادًا على المهمة، والواجهة، وتفضيلات وانحيازات الأفراد.^[19]^[43]

إن فعالية تقنية التعزيز بردود الفعل البشرية في تدريب النماذج اللغوية تعتمد بشكل كبير على جودة ونوعية هذه التعليقات. فالتعليقات المنحازة أو غير المتسقة أو غير الدقيقة قد تؤدي إلى تحيز النموذج نحو مجموعات معينة على حساب أخرى.^[16]^[44] كما أن هناك خطر من فرط الملاءمة حيث يحفظ النموذج الأمثلة المحددة للتعليقات بدلًا من استخلاص قواعد عامة. على سبيل المثال، قد يؤدي التركيز على تعليقات مجموعة ديموغرافية محددة إلى تعليم النموذج أنماطًا غير مرغوبة أو ضوضاء. علاوة على ذلك، فإن الاعتماد المفرط على تعليقات محددة قد يؤدي إلى تدهور أداء النموذج في سياقات جديدة أو مع مجموعات مستخدمين مختلفة.^[45] ولا يمكن لآلية المكافأة الواحدة أن تمثل آراء جميع الفئات بشكل عادل، فحتى مع وجود عينة تمثيلية، قد تهيمن آراء الأغلبية على عملية التدريب، مما يؤثر سلبًا على المجموعات الأقل تمثيلًا.^[42]

تواجه تقنية التعزيز بالتعليقات البشرية تحديًا يتمثل في احتمال استغلال النماذج اللغوية لهذه الآلية لتحقيق مكافآت دون تحسين الأداء الفعلي.^[46] فعوضًا عن السعي لتحقيق الأهداف المرجوة، قد يتعلم النموذج استراتيجيات للتلاعب بالمتقيّمين البشريين للحصول على تقييمات إيجابية، حتى لو كانت استجاباته غير دقيقة أو مضللة. هذا السلوك، المعروف باسم "التحايل على النظام"، يمكن أن ينشأ بسبب التركيز على المكافأة اللحظية بدلًا من الجودة الحقيقية للإنتاج. على سبيل المثال، قد تكتشف النماذج أن التعبير عن الثقة الزائدة، حتى لو كان غير مبرر، يحقق نتائج أفضل. هذا الأمر يثير قلقًا بالغًا، خاصة وأن الدراسات تشير إلى صعوبة اكتشاف الأخطاء في مخرجات النماذج اللغوية الكبيرة من قبل البشر. وبالتالي، فإن انتشار النماذج القادرة على توليد نصوص واثقة ولكنها غير صحيحة يمثل تهديدًا كبيرًا للتطبيقات العملية لهذه التقنية.^[42]

البدائل

التعلم المعزز من تغذية الذكاء الاصطناعي

على غرار التعلم المعزز البشري، يعتمد "التعلم المعزز من تغذية الذكاء الاصطناعي" على تدريب نموذج تفضيل، إلا أن التغذية الآراء تُولَّد آليًا.^[47] يُستخدم هذا بشكل ملحوظ في نموذج كلود لشركة أنثروبيك.^[48]

تحسين التفضيل المباشر

قُدّمَ بديل آخر لتعلم التعزيز البشري يُسمى تحسين التفضيل المباشر (DPO) لتعلم تفضيلات البشر، ومثل التعلم المعزز البشري، فقد تم تطبيقه لمواءمة نماذج اللغات الكبيرة المدربة مُسبقًا باستخدام بيانات تفضيلية مولَّدة بشريًا. ومع ذلك على عكس التعلم المعزز البشري، الذي يُدرب أولًا نموذجًا وسيطًا منفصلًا لفهم شكل النتائج الجيدة ثم يُعلّم النموذج الرئيسي كيفية تحقيق تلك النتائج، يُبسط تحسين التفضيل المباشر العملية من خلال تعديل النموذج الرئيسي مباشرةً وفقًا للتفضيلات البشرية. حيث يستخدم تغييرًا في المتغيرات لتحديد "خسارة التفضيل" مباشرةً كدالة للسياسة ويستخدم هذه الخسارة لضبط النموذج بدقة، مما يُساعده على فهم وتأهيل تفضيلات البشر دون الحاجة إلى خطوة منفصلة. في الأساس يُشكّل هذا النهج قرارات النموذج مباشرةً بناءً على التغذية الراجعة البشرية الإيجابية أو السلبية.

يُعد تحسين التفضيل المباشر أبسط تنفيذًا وتدريبًا من التعلم المعزز البشري وقد ثبت أنه يُنتج نتائج مماثلة وأحيانًا أفضل.^[49] ومع ذلك، فقد ثبت أيضًا أن التعلم المعزز البشري يتفوق على تحسين التفضيل المباشر في بعض مجموعات البيانات، على سبيل المثال في المعايير التي تحاول قياس الصدق. لذلك قد يختلف اختيار الأسلوب اعتمادًا على خصائص بيانات التفضيل البشرية وطبيعة المهمة.^[50]

مراجع

^ "ما المقصود بالتعلُّم المعزَّز من الملاحظات البشرية (RLHF)؟ - شرح "التعلُّم المعزَّز من الملاحظات البشرية" - AWS". Amazon Web Services, Inc. اطلع عليه بتاريخ 2024-10-28.
^ "أنواع التعلم الآلي | IBM". www.ibm.com. 27 سبتمبر 2024T19:00:30.019. اطلع عليه بتاريخ 28 أكتوبر 2024. {{استشهاد ويب}}: تحقق من التاريخ في: |تاريخ= (مساعدة)
^ "Rich human feedback for text-to-image generation". research.google (بالإنجليزية). Retrieved 2024-10-28.
^ #author.fullName. "AIs are more likely to mislead people if trained on human feedback". New Scientist. مؤرشف من الأصل في 2024-10-02. اطلع عليه بتاريخ 2024-10-28. {{استشهاد ويب}}: |مؤلف= باسم عام (مساعدة)| لغة = الإنجليزية| مسار أرشيف =http://archive.md/20241002204312/https://www.newscientist.com/article/2450360-ais-are-more-likely-to-mislead-people-if-trained-on-human-feedback/%7C تاريخ أرشيف = 02 أكتوبر 2024}}
^ "What Is Reinforcement Learning From Human Feedback (RLHF)? | IBM". www.ibm.com (بالإنجليزية). 09 Nov 2023. Retrieved 2024-10-28.
^ "Reinforcement Learning from Human Feedback - DeepLearning.AI". www.deeplearning.ai (بالإنجليزية). Retrieved 2024-10-28.
^ Ph.D, Cameron R. Wolfe (29 Feb 2024). "The Story of RLHF: Origins, Motivations, Techniques, and Modern Applications". Medium (بالإنجليزية). Retrieved 2024-10-28.
^ ^ا ^ب ^ج ^د ^ه Amodei، Dario؛ Christiano، Paul؛ Ray، Alex (13 يونيو 2017). "Learning from human preferences". openai.com. اطلع عليه بتاريخ 2023-03-04.
^ Zheng، Rui؛ Dou، Shihan؛ Gao، Songyang؛ Hua، Yuan؛ Shen، Wei؛ Wang، Binghai؛ Liu، Yan؛ Jin، Senjie؛ Liu، Qin؛ Zhou، Yuhao؛ Xiong، Limao؛ Chen، Lu؛ Xi، Zhiheng؛ Xu، Nuo؛ Lai، Wenbin؛ Zhu، Minghao؛ Chang، Cheng؛ Yin، Zhangyue؛ Weng، Rongxiang؛ Cheng، Wensen؛ Huang، Haoran؛ Sun، Tianxiang؛ Yan، Hang؛ Gui، Tao؛ Zhang، Qi؛ Qiu، Xipeng؛ Huang، Xuanjing (2023). "Secrets of RLHF in Large Language Models Part I: PPO". arXiv:2307.04964 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Knox, W. Bradley; Stone, Peter; Breazeal, Cynthia (2013). "Training a Robot via Human Feedback: A Case Study". Social Robotics. Lecture Notes in Computer Science (بالإنجليزية). Springer International Publishing. Vol. 8239. pp. 460–470. DOI:10.1007/978-3-319-02675-6_46. ISBN:978-3-319-02674-9. Retrieved 2024-10-28.
^ Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "APRIL: Active Preference Learning-Based Reinforcement Learning". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science (بالإنجليزية). Springer. Vol. 7524. pp. 116–131. arXiv:1208.0984. DOI:10.1007/978-3-642-33486-3_8. ISBN:978-3-642-33485-6. Retrieved 2024-10-28.
^ Wilson، Aaron؛ Fern، Alan؛ Tadepalli، Prasad (2012). "A Bayesian Approach for Policy Learning from Trajectory Preference Queries". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 25. اطلع عليه بتاريخ 2024-02-26.
^ Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 Jun 2014). "Programming by Feedback". Proceedings of the 31st International Conference on Machine Learning (بالإنجليزية). PMLR: 1503–1511. Retrieved 2024-02-26.
^ Warnell، Garrett؛ Waytowich، Nicholas؛ Lawhern، Vernon؛ Stone، Peter (25 أبريل 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence. ج. 32 ع. 1. arXiv:1709.10163. DOI:10.1609/aaai.v32i1.11485. S2CID:4130751. اطلع عليه بتاريخ 2024-10-28.
^ MacGlashan، James؛ Ho، Mark K.؛ Loftin، Robert؛ Peng، Bei؛ Wang، Guan؛ Roberts، David L.؛ Taylor، Matthew E.؛ Littman، Michael L. (6 أغسطس 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70. JMLR.org: 2285–2294. arXiv:1701.06049. اطلع عليه بتاريخ 2024-10-28.
^ ^ا ^ب ^ج Lambert، Nathan؛ Castricato، Louis؛ von Werra، Leandro؛ Havrilla، Alex. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. مؤرشف من الأصل في 2023-02-16. اطلع عليه بتاريخ 2023-03-04.
^ Ziegler، Daniel M.؛ Stiennon، Nisan؛ Wu، Jeffrey؛ Brown، Tom B.؛ Radford، Alec؛ Amodei، Dario؛ Christiano، Paul؛ Irving، Geoffrey (2019). "Fine-Tuning Language Models from Human Preferences". arXiv:1909.08593 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (بالإنجليزية). 33. Retrieved 2024-10-28.
^ ^ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا ^يب Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Gray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (31 Oct 2022). "Training language models to follow instructions with human feedback". Thirty-Sixth Conference on Neural Information Processing Systems: NeurIPS 2022. ICLR (بالإنجليزية). arXiv:2203.02155. Retrieved 2024-10-28.
^ Bai، Yuntao؛ Jones، Andy؛ Ndousse، Kamal؛ Askell، Amanda؛ Chen، Anna؛ DasSarma، Nova؛ Drain، Dawn؛ Fort، Stanislav؛ Ganguli، Deep؛ Henighan، Tom؛ Joseph، Nicholas؛ Kadavath، Saurav؛ Kernion، Jackson؛ Conerly، Tom؛ El-Showk، Sheer؛ Elhage، Nelson؛ Hatfield-Dodds، Zac؛ Hernandez، Danny؛ Hume، Tristan؛ Johnston، Scott؛ Kravec، Shauna؛ Lovitt، Liane؛ Nanda، Neel؛ Olsson، Catherine؛ Amodei، Dario؛ Brown، Tom؛ Clark، Jack؛ McCandlish، Sam؛ Olah، Chris؛ Mann، Ben؛ Kaplan، Jared (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback". arXiv:2204.05862 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب Edwards, Benj (1 Dec 2022). "OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results". Ars Technica (بالإنجليزية). Retrieved 2023-03-04.
^ Abhishek، Gupta (5 فبراير 2023). "Getting stakeholder engagement right in responsible AI". VentureBeat. اطلع عليه بتاريخ 2023-03-04.
^ Fernandes، Patrick؛ Madaan، Aman؛ Liu، Emmy؛ Farinhas، António؛ Pedro Henrique Martins؛ Bertsch، Amanda؛ de Souza، José G. C.؛ Zhou، Shuyan؛ Wu، Tongshuang؛ Neubig، Graham؛ Martins، André F. T. (2023). "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". arXiv:2305.00955 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ ^ا ^ب Xie، Tengyang؛ Jiang، Nan؛ Wang، Huan؛ Xiong، Caiming؛ Bai، Yu (2021). "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 34: 27395–27407. arXiv:2106.04895. اطلع عليه بتاريخ 2024-03-10.
^ ^ا ^ب Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (03 Mar 2023). "Dueling RL: Reinforcement Learning with Trajectory Preferences". Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (بالإنجليزية). PMLR: 6263–6289. arXiv:2111.04850. Retrieved 2024-10-28.
^ ^ا ^ب Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (03 Jul 2023). "Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons". Proceedings of the 40th International Conference on Machine Learning (بالإنجليزية). PMLR: 43037–43067. arXiv:2301.11270. Retrieved 2024-10-28.
^ Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 Jun 2023). "Reinforcement learning with Human Feedback: Learning Dynamic Choices via Pessimism". ILHF Workshop ICML 2023 (بالإنجليزية). arXiv:2305.18438. Retrieved 2024-03-10.
^ Ouyang، Long؛ Wu، Jeff؛ Jiang، Xu؛ Almeida، Diogo؛ Wainwright، Carroll L.؛ Mishkin، Pamela؛ Zhang، Chong؛ Agarwal، Sandhini؛ Slama، Katarina؛ Ray، Alex؛ Schulman، John؛ Hilton، Jacob؛ Kelton، Fraser؛ Miller، Luke؛ Simens، Maddie؛ Askell، Amanda؛ Welinder، Peter؛ Christiano، Paul؛ Leike، Jan؛ Lowe، Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Wiggers، Kyle (24 فبراير 2023). "Can AI really be protected from text-based attacks?". TechCrunch. اطلع عليه بتاريخ 2023-03-04.
^ Heikkilä, Melissa (21 Feb 2023). "How OpenAI is trying to make ChatGPT safer and less biased". MIT Technology Review (بالإنجليزية). Archived from the original on 2023-02-21. Retrieved 2023-03-04.
^ Douglas Heaven, Will (30 Nov 2022). "ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense". MIT Technology Review (بالإنجليزية). Retrieved 2023-03-04.
^ Glaese، Amelia؛ McAleese، Nat؛ Trębacz، Maja؛ Aslanides، John؛ Firoiu، Vlad؛ Ewalds، Timo؛ Rauh، Maribeth؛ Weidinger، Laura؛ Chadwick، Martin؛ Thacker، Phoebe؛ Campbell-Gillingham، Lucy؛ Uesato، Jonathan؛ Huang، Po-Sen؛ Comanescu، Ramona؛ Yang، Fan؛ See، Abigail؛ Dathathri، Sumanth؛ Greig، Rory؛ Chen، Charlie؛ Fritz، Doug؛ Elias، Jaume Sanchez؛ Green، Richard؛ Mokrá، Soňa؛ Fernando، Nicholas؛ Wu، Boxi؛ Foley، Rachel؛ Young، Susannah؛ Gabriel، Iason؛ Isaac، William؛ Mellor، John؛ Hassabis، Demis؛ Kavukcuoglu، Koray؛ Hendricks، Lisa Anne؛ Irving، Geoffrey (2022). "Improving alignment of dialogue agents via targeted human judgements". arXiv:2209.14375 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Goldman، Sharon (23 سبتمبر 2022). "Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI". VentureBeat. اطلع عليه بتاريخ 2023-03-04.
^ The Sparrow team (22 Sep 2022). "Building safer dialogue agents". www.deepmind.com (بالإنجليزية). Retrieved 2023-03-04.
^ Pinchai, Sundar; Hassabis, Demis (6 Dec 2023). "Introducing Gemini: our largest and most capable AI model". Google (بالإنجليزية). Retrieved 2024-02-29.
^ Henshall, Will (18 Jul 2023). "What to Know About Claude 2, Anthropic's Rival to ChatGPT". TIME (بالإنجليزية). Archived from the original on 2023-07-21. Retrieved 2024-03-06.
^ Fan, Ying; Watkins, Olivia; Du, Yuqing; Liu, Hao; Ryu, Moonkyung; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Lee, Kangwook; Lee, Kimin (2 Nov 2023). "DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models". NeurIPS 2023 (بالإنجليزية). arXiv:2305.16381. Retrieved 2024-03-01.
^ Xu, Jiazheng; Liu, Xiao; Wu, Yuchen; Tong, Yuxuan; Li, Qinkai; Ding, Ming; Tang, Jie; Dong, Yuxiao (15 Dec 2023). "ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation". Advances in Neural Information Processing Systems (بالإنجليزية). 36: 15903–15935. arXiv:2304.05977. Retrieved 2024-03-01.
^ Lee، Kimin؛ Liu، Hao؛ Ryu، Moonkyung؛ Watkins، Olivia؛ Du، Yuqing؛ Boutilier، Craig؛ Abbeel، Pieter؛ Ghavamzadeh، Mohammad؛ Gu، Shixiang Shane (2023). "Aligning Text-to-Image Models using Human Feedback". arXiv:2302.12192 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Leike, Jan; Martic, Miljan; Legg, Shane (12 Jun 2017). "Learning through human feedback". www.deepmind.com (بالإنجليزية). Retrieved 2023-03-04.
^ Christiano، Paul F؛ Leike، Jan؛ Brown، Tom؛ Martic، Miljan؛ Legg، Shane؛ Amodei، Dario (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. arXiv:1706.03741. اطلع عليه بتاريخ 2023-03-04.
^ ^ا ^ب ^ج Casper، Stephen؛ Davies، Xander؛ Shi، Claudia؛ Gilbert، Thomas Krendl؛ Scheurer، Jérémy؛ Rando، Javier؛ Freedman، Rachel؛ Korbak، Tomasz؛ Lindner، David؛ Freire، Pedro؛ Wang، Tony Tong؛ Marks، Samuel؛ Segerie، Charbel-Raphael؛ Carroll، Micah؛ Peng، Andi؛ Christoffersen، Phillip؛ Damani، Mehul؛ Slocum، Stewart؛ Anwar، Usman؛ Siththaranjan، Anand؛ Nadeau، Max؛ Michaud، Eric J.؛ Pfau، Jacob؛ Krasheninnikov، Dmitrii؛ Chen، Xin؛ Langosco، Lauro؛ Hase، Peter؛ Biyik، Erdem؛ Dragan، Anca؛ Krueger، David؛ Sadigh، Dorsa؛ Hadfield-Menell، Dylan (18 سبتمبر 2023). "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Transactions on Machine Learning Research. arXiv:2307.15217. اطلع عليه بتاريخ 2024-10-28.
^ Christiano, Paul (25 Jan 2023). "Thoughts on the impact of RLHF research" (بالإنجليزية). Retrieved 2023-03-04.
^ Belenguer، Lorenzo (2022). "AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry". AI and Ethics. AI Ethics. ج. 2 ع. 4: 771–787. DOI:10.1007/s43681-022-00138-8. PMC:8830968. PMID:35194591. اطلع عليه بتاريخ 2024-10-28.
^ Zhang, Chiyuan؛ Bengio, Samy؛ Hardt, Moritz؛ Recht, Benjamin؛ Vinyals, Oriol (4 نوفمبر 2016). "Understanding deep learning requires rethinking generalization". International Conference on Learning Representations. اطلع عليه بتاريخ 2024-10-28.
^ Clark، Jack؛ Amodei، Dario (21 ديسمبر 2016). "Faulty reward functions in the wild". OpenAI. مؤرشف من الأصل في 2024-09-19. اطلع عليه بتاريخ 2024-10-28.
^ Ansari, Tasmia (06 Oct 2023). "Reinforcement Learning Craves Less Human, More AI". Analytics India Magazine (بالإنجليزية). Retrieved 2024-04-27.
^ Edwards, Benj (09 May 2023). "AI gains "values" with Anthropic's new Constitutional AI chatbot approach". Ars Technica (بالإنجليزية). Archived from the original on 2023-05-10. Retrieved 2024-04-27.
^ Rafailov، Rafael؛ Sharma، Archit؛ Mitchell، Eric؛ Ermon، Stefano؛ Manning، Christopher D.؛ Finn، Chelsea (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". arXiv:2305.18290 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)
^ Wang، Zhilin؛ Dong، Yi؛ Zeng، Jiaqi؛ Adams، Virginia؛ Sreedhar، Makesh Narsimhan؛ Egert، Daniel؛ Delalleau، Olivier؛ Scowcroft، Jane Polak؛ Kant، Neel؛ Swope، Aidan؛ Kuchaiev، Oleksii (2023). "HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM". arXiv:2311.09528 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[1] "ما المقصود بالتعلُّم المعزَّز من الملاحظات البشرية (RLHF)؟ - شرح "التعلُّم المعزَّز من الملاحظات البشرية" - AWS". Amazon Web Services, Inc. اطلع عليه بتاريخ 2024-10-28.

[2] "أنواع التعلم الآلي | IBM". www.ibm.com. 27 سبتمبر 2024T19:00:30.019. اطلع عليه بتاريخ 28 أكتوبر 2024. {{استشهاد ويب}}: تحقق من التاريخ في: |تاريخ= (مساعدة)

[3] "Rich human feedback for text-to-image generation". research.google (بالإنجليزية). Retrieved 2024-10-28.

[4] #author.fullName. "AIs are more likely to mislead people if trained on human feedback". New Scientist. مؤرشف من الأصل في 2024-10-02. اطلع عليه بتاريخ 2024-10-28. {{استشهاد ويب}}: |مؤلف= باسم عام (مساعدة)| لغة = الإنجليزية| مسار أرشيف =http://archive.md/20241002204312/https://www.newscientist.com/article/2450360-ais-are-more-likely-to-mislead-people-if-trained-on-human-feedback/%7C تاريخ أرشيف = 02 أكتوبر 2024}}

[5] "What Is Reinforcement Learning From Human Feedback (RLHF)? | IBM". www.ibm.com (بالإنجليزية). 09 Nov 2023. Retrieved 2024-10-28.

[6] "Reinforcement Learning from Human Feedback - DeepLearning.AI". www.deeplearning.ai (بالإنجليزية). Retrieved 2024-10-28.

[7] Ph.D, Cameron R. Wolfe (29 Feb 2024). "The Story of RLHF: Origins, Motivations, Techniques, and Modern Applications". Medium (بالإنجليزية). Retrieved 2024-10-28.

[openai-8] ا ^ب ^ج ^د ^ه Amodei، Dario؛ Christiano، Paul؛ Ray، Alex (13 يونيو 2017). "Learning from human preferences". openai.com. اطلع عليه بتاريخ 2023-03-04.

[9] Zheng، Rui؛ Dou، Shihan؛ Gao، Songyang؛ Hua، Yuan؛ Shen، Wei؛ Wang، Binghai؛ Liu، Yan؛ Jin، Senjie؛ Liu، Qin؛ Zhou، Yuhao؛ Xiong، Limao؛ Chen، Lu؛ Xi، Zhiheng؛ Xu، Nuo؛ Lai، Wenbin؛ Zhu، Minghao؛ Chang، Cheng؛ Yin، Zhangyue؛ Weng، Rongxiang؛ Cheng، Wensen؛ Huang، Haoran؛ Sun، Tianxiang؛ Yan، Hang؛ Gui، Tao؛ Zhang، Qi؛ Qiu، Xipeng؛ Huang، Xuanjing (2023). "Secrets of RLHF in Large Language Models Part I: PPO". arXiv:2307.04964 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[10] Knox, W. Bradley; Stone, Peter; Breazeal, Cynthia (2013). "Training a Robot via Human Feedback: A Case Study". Social Robotics. Lecture Notes in Computer Science (بالإنجليزية). Springer International Publishing. Vol. 8239. pp. 460–470. DOI:10.1007/978-3-319-02675-6_46. ISBN:978-3-319-02674-9. Retrieved 2024-10-28.

[11] Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "APRIL: Active Preference Learning-Based Reinforcement Learning". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science (بالإنجليزية). Springer. Vol. 7524. pp. 116–131. arXiv:1208.0984. DOI:10.1007/978-3-642-33486-3_8. ISBN:978-3-642-33485-6. Retrieved 2024-10-28.

[12] Wilson، Aaron؛ Fern، Alan؛ Tadepalli، Prasad (2012). "A Bayesian Approach for Policy Learning from Trajectory Preference Queries". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 25. اطلع عليه بتاريخ 2024-02-26.

[13] Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 Jun 2014). "Programming by Feedback". Proceedings of the 31st International Conference on Machine Learning (بالإنجليزية). PMLR: 1503–1511. Retrieved 2024-02-26.

[14] Warnell، Garrett؛ Waytowich، Nicholas؛ Lawhern، Vernon؛ Stone، Peter (25 أبريل 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence. ج. 32 ع. 1. arXiv:1709.10163. DOI:10.1609/aaai.v32i1.11485. S2CID:4130751. اطلع عليه بتاريخ 2024-10-28.

[15] MacGlashan، James؛ Ho، Mark K.؛ Loftin، Robert؛ Peng، Bei؛ Wang، Guan؛ Roberts، David L.؛ Taylor، Matthew E.؛ Littman، Michael L. (6 أغسطس 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70. JMLR.org: 2285–2294. arXiv:1701.06049. اطلع عليه بتاريخ 2024-10-28.

[huggingface-16] ا ^ب ^ج Lambert، Nathan؛ Castricato، Louis؛ von Werra، Leandro؛ Havrilla، Alex. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. مؤرشف من الأصل في 2023-02-16. اطلع عليه بتاريخ 2023-03-04.

[ziegler-17] Ziegler، Daniel M.؛ Stiennon، Nisan؛ Wu، Jeffrey؛ Brown، Tom B.؛ Radford، Alec؛ Amodei، Dario؛ Christiano، Paul؛ Irving، Geoffrey (2019). "Fine-Tuning Language Models from Human Preferences". arXiv:1909.08593 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[summarizationpaper-18] ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (بالإنجليزية). 33. Retrieved 2024-10-28.

[instructgptpaper-19] ا ^ب ^ج ^د ^ه ^و ^ز ^ح ^ط ^ي ^يا ^يب Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Gray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (31 Oct 2022). "Training language models to follow instructions with human feedback". Thirty-Sixth Conference on Neural Information Processing Systems: NeurIPS 2022. ICLR (بالإنجليزية). arXiv:2203.02155. Retrieved 2024-10-28.

[20] Bai، Yuntao؛ Jones، Andy؛ Ndousse، Kamal؛ Askell، Amanda؛ Chen، Anna؛ DasSarma، Nova؛ Drain، Dawn؛ Fort، Stanislav؛ Ganguli، Deep؛ Henighan، Tom؛ Joseph، Nicholas؛ Kadavath، Saurav؛ Kernion، Jackson؛ Conerly، Tom؛ El-Showk، Sheer؛ Elhage، Nelson؛ Hatfield-Dodds، Zac؛ Hernandez، Danny؛ Hume، Tristan؛ Johnston، Scott؛ Kravec، Shauna؛ Lovitt، Liane؛ Nanda، Neel؛ Olsson، Catherine؛ Amodei، Dario؛ Brown، Tom؛ Clark، Jack؛ McCandlish، Sam؛ Olah، Chris؛ Mann، Ben؛ Kaplan، Jared (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback". arXiv:2204.05862 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[ars-21] ا ^ب Edwards, Benj (1 Dec 2022). "OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results". Ars Technica (بالإنجليزية). Retrieved 2023-03-04.

[22] Abhishek، Gupta (5 فبراير 2023). "Getting stakeholder engagement right in responsible AI". VentureBeat. اطلع عليه بتاريخ 2023-03-04.

[23] Fernandes، Patrick؛ Madaan، Aman؛ Liu، Emmy؛ Farinhas، António؛ Pedro Henrique Martins؛ Bertsch، Amanda؛ de Souza، José G. C.؛ Zhou، Shuyan؛ Wu، Tongshuang؛ Neubig، Graham؛ Martins، André F. T. (2023). "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". arXiv:2305.00955 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[xiejiang-24] ا ^ب Xie، Tengyang؛ Jiang، Nan؛ Wang، Huan؛ Xiong، Caiming؛ Bai، Yu (2021). "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 34: 27395–27407. arXiv:2106.04895. اطلع عليه بتاريخ 2024-03-10.

[pacchiano-25] ا ^ب Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (03 Mar 2023). "Dueling RL: Reinforcement Learning with Trajectory Preferences". Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (بالإنجليزية). PMLR: 6263–6289. arXiv:2111.04850. Retrieved 2024-10-28.

[zhujordan-26] ا ^ب Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (03 Jul 2023). "Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons". Proceedings of the 40th International Conference on Machine Learning (بالإنجليزية). PMLR: 43037–43067. arXiv:2301.11270. Retrieved 2024-10-28.

[27] Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 Jun 2023). "Reinforcement learning with Human Feedback: Learning Dynamic Choices via Pessimism". ILHF Workshop ICML 2023 (بالإنجليزية). arXiv:2305.18438. Retrieved 2024-03-10.

[28] Ouyang، Long؛ Wu، Jeff؛ Jiang، Xu؛ Almeida، Diogo؛ Wainwright، Carroll L.؛ Mishkin، Pamela؛ Zhang، Chong؛ Agarwal، Sandhini؛ Slama، Katarina؛ Ray، Alex؛ Schulman، John؛ Hilton، Jacob؛ Kelton، Fraser؛ Miller، Luke؛ Simens، Maddie؛ Askell، Amanda؛ Welinder، Peter؛ Christiano، Paul؛ Leike، Jan؛ Lowe، Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[29] Wiggers، Kyle (24 فبراير 2023). "Can AI really be protected from text-based attacks?". TechCrunch. اطلع عليه بتاريخ 2023-03-04.

[30] Heikkilä, Melissa (21 Feb 2023). "How OpenAI is trying to make ChatGPT safer and less biased". MIT Technology Review (بالإنجليزية). Archived from the original on 2023-02-21. Retrieved 2023-03-04.

[31] Douglas Heaven, Will (30 Nov 2022). "ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense". MIT Technology Review (بالإنجليزية). Retrieved 2023-03-04.

[32] Glaese، Amelia؛ McAleese، Nat؛ Trębacz، Maja؛ Aslanides، John؛ Firoiu، Vlad؛ Ewalds، Timo؛ Rauh، Maribeth؛ Weidinger، Laura؛ Chadwick، Martin؛ Thacker، Phoebe؛ Campbell-Gillingham، Lucy؛ Uesato، Jonathan؛ Huang، Po-Sen؛ Comanescu، Ramona؛ Yang، Fan؛ See، Abigail؛ Dathathri، Sumanth؛ Greig، Rory؛ Chen، Charlie؛ Fritz، Doug؛ Elias، Jaume Sanchez؛ Green، Richard؛ Mokrá، Soňa؛ Fernando، Nicholas؛ Wu، Boxi؛ Foley، Rachel؛ Young، Susannah؛ Gabriel، Iason؛ Isaac، William؛ Mellor، John؛ Hassabis، Demis؛ Kavukcuoglu، Koray؛ Hendricks، Lisa Anne؛ Irving، Geoffrey (2022). "Improving alignment of dialogue agents via targeted human judgements". arXiv:2209.14375 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[33] Goldman، Sharon (23 سبتمبر 2022). "Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI". VentureBeat. اطلع عليه بتاريخ 2023-03-04.

[34] The Sparrow team (22 Sep 2022). "Building safer dialogue agents". www.deepmind.com (بالإنجليزية). Retrieved 2023-03-04.

[35] Pinchai, Sundar; Hassabis, Demis (6 Dec 2023). "Introducing Gemini: our largest and most capable AI model". Google (بالإنجليزية). Retrieved 2024-02-29.

[36] Henshall, Will (18 Jul 2023). "What to Know About Claude 2, Anthropic's Rival to ChatGPT". TIME (بالإنجليزية). Archived from the original on 2023-07-21. Retrieved 2024-03-06.

[37] Fan, Ying; Watkins, Olivia; Du, Yuqing; Liu, Hao; Ryu, Moonkyung; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Lee, Kangwook; Lee, Kimin (2 Nov 2023). "DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models". NeurIPS 2023 (بالإنجليزية). arXiv:2305.16381. Retrieved 2024-03-01.

[38] Xu, Jiazheng; Liu, Xiao; Wu, Yuchen; Tong, Yuxuan; Li, Qinkai; Ding, Ming; Tang, Jie; Dong, Yuxiao (15 Dec 2023). "ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation". Advances in Neural Information Processing Systems (بالإنجليزية). 36: 15903–15935. arXiv:2304.05977. Retrieved 2024-03-01.

[39] Lee، Kimin؛ Liu، Hao؛ Ryu، Moonkyung؛ Watkins، Olivia؛ Du، Yuqing؛ Boutilier، Craig؛ Abbeel، Pieter؛ Ghavamzadeh، Mohammad؛ Gu، Shixiang Shane (2023). "Aligning Text-to-Image Models using Human Feedback". arXiv:2302.12192 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[40] Leike, Jan; Martic, Miljan; Legg, Shane (12 Jun 2017). "Learning through human feedback". www.deepmind.com (بالإنجليزية). Retrieved 2023-03-04.

[41] Christiano، Paul F؛ Leike، Jan؛ Brown، Tom؛ Martic، Miljan؛ Legg، Shane؛ Amodei، Dario (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Curran Associates, Inc. ج. 30. arXiv:1706.03741. اطلع عليه بتاريخ 2023-03-04.

[openproblems-42] ا ^ب ^ج Casper، Stephen؛ Davies، Xander؛ Shi، Claudia؛ Gilbert، Thomas Krendl؛ Scheurer، Jérémy؛ Rando، Javier؛ Freedman، Rachel؛ Korbak، Tomasz؛ Lindner، David؛ Freire، Pedro؛ Wang، Tony Tong؛ Marks، Samuel؛ Segerie، Charbel-Raphael؛ Carroll، Micah؛ Peng، Andi؛ Christoffersen، Phillip؛ Damani، Mehul؛ Slocum، Stewart؛ Anwar، Usman؛ Siththaranjan، Anand؛ Nadeau، Max؛ Michaud، Eric J.؛ Pfau، Jacob؛ Krasheninnikov، Dmitrii؛ Chen، Xin؛ Langosco، Lauro؛ Hase، Peter؛ Biyik، Erdem؛ Dragan، Anca؛ Krueger، David؛ Sadigh، Dorsa؛ Hadfield-Menell، Dylan (18 سبتمبر 2023). "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Transactions on Machine Learning Research. arXiv:2307.15217. اطلع عليه بتاريخ 2024-10-28.

[43] Christiano, Paul (25 Jan 2023). "Thoughts on the impact of RLHF research" (بالإنجليزية). Retrieved 2023-03-04.

[44] Belenguer، Lorenzo (2022). "AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry". AI and Ethics. AI Ethics. ج. 2 ع. 4: 771–787. DOI:10.1007/s43681-022-00138-8. PMC:8830968. PMID:35194591. اطلع عليه بتاريخ 2024-10-28.

[45] Zhang, Chiyuan؛ Bengio, Samy؛ Hardt, Moritz؛ Recht, Benjamin؛ Vinyals, Oriol (4 نوفمبر 2016). "Understanding deep learning requires rethinking generalization". International Conference on Learning Representations. اطلع عليه بتاريخ 2024-10-28.

[46] Clark، Jack؛ Amodei، Dario (21 ديسمبر 2016). "Faulty reward functions in the wild". OpenAI. مؤرشف من الأصل في 2024-09-19. اطلع عليه بتاريخ 2024-10-28.

[47] Ansari, Tasmia (06 Oct 2023). "Reinforcement Learning Craves Less Human, More AI". Analytics India Magazine (بالإنجليزية). Retrieved 2024-04-27.

[48] Edwards, Benj (09 May 2023). "AI gains "values" with Anthropic's new Constitutional AI chatbot approach". Ars Technica (بالإنجليزية). Archived from the original on 2023-05-10. Retrieved 2024-04-27.

[49] Rafailov، Rafael؛ Sharma، Archit؛ Mitchell، Eric؛ Ermon، Stefano؛ Manning، Christopher D.؛ Finn، Chelsea (2023). "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". arXiv:2305.18290 [cs.LG]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[50] Wang، Zhilin؛ Dong، Yi؛ Zeng، Jiaqi؛ Adams، Virginia؛ Sreedhar، Makesh Narsimhan؛ Egert، Daniel؛ Delalleau، Olivier؛ Scowcroft، Jane Polak؛ Kant، Neel؛ Swope، Aidan؛ Kuchaiev، Oleksii (2023). "HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM". arXiv:2311.09528 [cs.CL]. {{استشهاد بأرخايف}}: الوسيط |arxiv= مطلوب (مساعدة)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[43]

[44]

[45]

[46]

[47]

[48]

[49]

[50]