الذكاء الإصطناعي : التعليم المعزز Reinforcement Learning #الدرس الثالث عشر...
مرحبا بكم في الدرس الثالث عشر من دروس الذكاء الإصطناعي ، و اليوم مع التعليم المعزز Reinforcement Learning ، لا نقول عنه تقنية فقط بل هو أيضاً مجال من مجلات التعليم الآلي ، و مقتطف من علم النفس السلوكي ، حيث يطبق التعليم المعزز مثلاً في النظارات الإفتراضية و الواقع الإفتراضي ، أيضاً تطبق بكثرة في الألعاب لتأدية تعامل أفضل مع البيئة ، و تستعمل أيضاً في البرمجة الديناميكية لحل المسائل المعقدة عن تقسيم المسألة إلى فروع و محاولة حل كل فرع لوحده لتصبح العملية أكثر بساطة ... هذه أجزاء فقط يُسْتَعْمَلُ فيها الواقع المعزز ، إذاً دعنا نتعرف عليه أكثر و ما هي قوانينه و كيف يعمل :
التعليم المعزز Reinforcement Learning :
هو تعليمٌ عن طريق التفاعل مع البيئة ، حيث يكون التعليم عن طريق أحداث متعاقبة فضلاً عن التعليم الصريح ، و تنفذ هذه التقنية بواسطة إطار رياضي إحصائي "من الإحصاء" و هو خطوات من قرار العالم ماركوف ، و الإسم العلمي لهذه الخطوات هي "Markov Decision Processes" و إختصارها "MDPs" ...
نموج التعليم المعزز RL الأساسي :
يتكون نموذج التعليم المعزز الأساسي من مجموعة حالات البيئة البيئة "environment states - S" و مجموعة من الأحداث "action - A" و مجموعة من المدرجات المكافئات "Rewards - R " ...
حيث يتفاعل عميل إتخاذ القرار مع البيئة كثيراً ، من أجل زيادة المكافئة التي ينالها خلال الزمن و ذلك بعد الخطوات التالية :
- في أي زمن "t" يتحسس العميل حالة البيئة "st" و مجمعة الأحداث الممكنة (A(st...
- نختار حدثًا "a" بحيث يكون (A(st ينتمي إلى a ، و نسجل الحالة الجديدة من البيئة st+1 ، و المكافئة الجديدة rt+1 ...
- و بالإعتماد على هذه التفاعلات مع البيئة الأسلوب π بحيث (π : S --> A ) ، الذي يزيد كمية المكافآة R = r0 + r1 + r2 + ... + rn ، من أجل العملية MDPs "خطوات قرار ماكروف" ...
*** تركز طريقة التعليم المعزز على مسائل من نوع التعليم و صناعة القرار(صناعة القرار يختلف إختلافاً تاماً عن إتخاذ القرار) ، و التي يواجهها الناس في معيشتهم اليومية العادية...
و أخيراً وصلنا إلى نهاية هذا الدرس الرائع و المشوق أليس كذلك ، فلا تتردد في متابعة صفحتنا على الفيسبوك و إضغط على مشاهدة أولا لتتوصل بالدروس فوراً أثناء إنزالها من : هنا