یادگیری تقویتی

یادگیری تقویتی معکوس

در یادگیری تقویتی معکوس، هیچ تابع پاداشی وجود ندارد. در عوض، ماشین با مشاهدهٔ یک رفتار که معمولاً به رفتار بهینه نزدیک است سعی می‌کند آن را تقلید کند. اگر ماشینی که ...

۲۴۰

پیاده‌سازی

یک رابط(Interface) استاندارد ارائه می‌دهد که با کمک آن می‌توان ماشین‌ها - محیط‌ها و برنامه‌های تجربی را به هم متصل کرد، حتی اگر به زبان‌های مختلف نوشته شده ب...

۴۶

تحقیقات جاری

تحقیقات جاری شامل: پیدا کردن راهکارهای قابل انطباق با تعداد کمتر (یا هیچ) پارامتری تحت شرط‌های بسیار زیاد. تخمین‌های تجربی بزرگ یادگیری و تصمیم‌گیری تحت ا...

۶۱

نظریه

نظریه برای فرایندهای مارکف کوچک و محدود کامل است؛ و هر دو رفتار تقریبی و نمونه برداری محدود بیشتر الگوریتم‌ها به خوبی فهمیده شده است. همان‌طور که پیش‌تر گفته ش...

۴۵

جستجوی جامع

روش جستجوی جامع از دو مرحلهٔ زیر تشکیل شده است: به ازای همهٔ رویکردهای ممکن، در حین دنبال کردن آنها از پاداش‌ها نمونه برداری کن. رویکردی را که بیشترین مجموع پادا...

۴۵

معیار بهینگی

برای سادگی، فرض کنید مسئله به صورت دنباله‌ای از قسمت‌های مستقل باشد، که هر کدام از این قسمت‌ها با رسیدن به یک حالت انتهایی به پایان می‌رسد، (برای مثال اگر قر...

۴۳

الگوریتم‌های یادگیری کنترلی

اگر مشکل اکتشاف را نادیده بگیریم و فرض کنیم که حالت فعلی کاملاً قابل مشاهده است (که این موضوع از اینجا به بعد مفروض است)، مسئله به این تبدیل می‌شود که چه اعمالی با تو...

۶۹

اکتشاف

مسئلهٔ یادگیری تقویتی همان‌طور که توصیف شد، نیازمند یک راهکار هوشمندانه برای اکتشاف است. تصمیم‌گیری‌های تصادفی بدون استفاده از یک توزیع احتمال برآورد شده، م...

۴۰

مقدمه

یک مدل ابتدایی یادگیری تقویتی از: S {displaystyle S} S یک مجموعه از حالات مختلف مسئله. A {displaystyle A} A یک مجموعه از تصمیمات قابل اتخاذ. قوانینی برای گذار از حالات مختلف به یکد...

۳۷

یادگیری تقویتی

یادگیری تقویتی یکی از گرایش‌های یادگیری ماشینی است که از روانشناسی رفتارگرایی الهام می‌گیرد. این روش بر رفتارهایی تمرکز دارد که ماشین باید برای بیشینه کردن پاد...

۶۳