یادگیری تقویتی معکوس
در یادگیری تقویتی معکوس، هیچ تابع پاداشی وجود ندارد. در عوض، ماشین با مشاهدهٔ یک رفتار که معمولاً به رفتار بهینه نزدیک است سعی میکند آن را تقلید کند. اگر ماشینی که ...
در یادگیری تقویتی معکوس، هیچ تابع پاداشی وجود ندارد. در عوض، ماشین با مشاهدهٔ یک رفتار که معمولاً به رفتار بهینه نزدیک است سعی میکند آن را تقلید کند. اگر ماشینی که ...
یک رابط(Interface) استاندارد ارائه میدهد که با کمک آن میتوان ماشینها - محیطها و برنامههای تجربی را به هم متصل کرد، حتی اگر به زبانهای مختلف نوشته شده ب...
تحقیقات جاری شامل: پیدا کردن راهکارهای قابل انطباق با تعداد کمتر (یا هیچ) پارامتری تحت شرطهای بسیار زیاد. تخمینهای تجربی بزرگ یادگیری و تصمیمگیری تحت ا...
نظریه برای فرایندهای مارکف کوچک و محدود کامل است؛ و هر دو رفتار تقریبی و نمونه برداری محدود بیشتر الگوریتمها به خوبی فهمیده شده است. همانطور که پیشتر گفته ش...
روش جستجوی جامع از دو مرحلهٔ زیر تشکیل شده است: به ازای همهٔ رویکردهای ممکن، در حین دنبال کردن آنها از پاداشها نمونه برداری کن. رویکردی را که بیشترین مجموع پادا...
برای سادگی، فرض کنید مسئله به صورت دنبالهای از قسمتهای مستقل باشد، که هر کدام از این قسمتها با رسیدن به یک حالت انتهایی به پایان میرسد، (برای مثال اگر قر...
اگر مشکل اکتشاف را نادیده بگیریم و فرض کنیم که حالت فعلی کاملاً قابل مشاهده است (که این موضوع از اینجا به بعد مفروض است)، مسئله به این تبدیل میشود که چه اعمالی با تو...
مسئلهٔ یادگیری تقویتی همانطور که توصیف شد، نیازمند یک راهکار هوشمندانه برای اکتشاف است. تصمیمگیریهای تصادفی بدون استفاده از یک توزیع احتمال برآورد شده، م...
یک مدل ابتدایی یادگیری تقویتی از: S {displaystyle S} S یک مجموعه از حالات مختلف مسئله. A {displaystyle A} A یک مجموعه از تصمیمات قابل اتخاذ. قوانینی برای گذار از حالات مختلف به یکد...
یادگیری تقویتی یکی از گرایشهای یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام میگیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاد...