دانلود پاورپوینت مقدمه ای بر سیستم های وقایع گسسته و بررسی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته
کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته
MPC on Discrete Event Systems
عنوان های پاورپوینت :
مقدمه ای بر سیستم های وقایع گسسته و بررسی کنترل پیشبین مبتنی بر مدل در سیستم های وقایع گسسته
فهرست مطالب
مثال (یک سیستم تولید)
مثال های دیگر
مسائل مطرح در سیستمهای وقایع گسسته
روشهای مدلسازی متعددی برای توصیف سیستم های وقایع گسسته ارائه شده است:
مدلهای جبری ماکس-پلاس
مثال:
خصوصیات جبر ماکس-پلاس
شبکه های پتری (Carl Adam Petri(1939
اجزای تشکیل دهنده یک مدل پتری کلاسیک
مثال
چراغ راهنما
Two safe traffic lights
Two safe and fair traffic lights
Example: life-cycle of a person
اضافه کردن وزن به اتصالات
مسائل مطرح در رویداد ها
شبکه های پتری رنگی
شبکه های پتری زمانی
مدل چراغ راهنما با شبکه های پتری زمانی
شبکه های پتری سلسله مراتبی
یک شبکه پتری کلاسیک را می توان با 5 مولفه بیان نمود:
خصوصیات شبکه های پتری
(Example: In a Restaurant (Scenario 1
(Example: In a Restaurant (Scenario 2
مقایسه مدلهای معرفی شده
به کار گیری شبکه های پتری در مدلسازی شبکه های بیولوژیکی
کنترل پیشبین مبتنی بر مدل در سیستم های جبر خطی ماکس-پلاس
در مورد بخش Jin نیز به صورت زیر عمل می شود:
قیود
تعاریف کنترلی در سیستم های وقایع گسسته
کنترل پیشبین مبتنی بر مدل در شبکه های پتری
مثال
الگوریتم یادگیری تقویت شده Reinforcement Learning
پاداش
در نظر گرفتن پاداشهای آینده
Reinforcement learning example
مقایسه الگوریتم یادگیری تقویت شده با کنترل پیش بین مبتنی بر مدل
مدلهای مارکو
قسمت ها و تکه های اتفاقی از فایل
روشهای مدلسازی متعددی برای توصیف سیستم های وقایع گسسته ارائه شده است:
مدلهای جبری-ماکس پلاس
شبکه های پتری
مدلهای تصادفی مانند مدلهای مارکوف
…
اگر زمانی نهایی مورد نظر r برای تولید محصولات مشخص باشد و اگر برای هر مقدار تاخیر بعد از این زمان تعیین شده مجبور به پرداخت جریمه باشیم بخش Jout در تابع هزینه را می توان به صورت زیر برای سیستم های وقایع گسسته خطی ماکس –پلاس تعریف نمود:
در مورد بخش Jin نیز به صورت زیر عمل می شود:معیار هزینه ورودی در سیستم های کلاسیک به صورت تعریف شد، اما در مورد سیستم های وقایع گسسته خطی ماکس- پلاس مینیمم کردن این تابع منجر به کوچک کردن لحظات زمانی ورودی می شود. که ممکن است نتیجه آن سرریز بافر ورودی باشد. بنابراین به نظر می رسد که بهتر باشد تابع ورودی ماکسیمم شود. در مورد سیستم های تولیدی به این معنا است که مواد خام با حداکثر تاخیر ممکن به سیستم داده شود.که در نتیجه آن سایز بافر ورودی نیز می تواند کوچک گرفته شود. همچنین سر ریز شدن ممکن است باعث ناپایداری در سیستم شود. به این ترتیب به نظر می رسد که برای سیستمهای وقایع گسسته MPL بهتر است تابع هزینه ورودی به صورت زیر تعریف شود که دقیقا مخالف سیستم های کلاسیک زمان گسسته خطی است.
الگوریتم یادگیری تقویت شده Reinforcement Learning
در یادگیری تقویتیReinforcement earning))سیستم تلاش میکند تا تقابلات خود با یک محیط پویا را از طریق خطا و آزمایش بهینه نماید. در یادگیری تقویتی هیچ نوع زوج ورودی- خروجی ارائه نمیشود. به جای آن، پس از اتخاذ یک عمل، حالت بعدی و پاداش بلافصل به عامل ارائه میشود. هدف اولیه برنامهریزی عاملها با استفاده از تنبیه و تشویق است بدون آنکه ذکری از چگونگی انجام وظیفه آنها شود.
یادگیری تقویتی از اینرو مورد توجه است که راهی برای آموزش عاملها برای انجام یک عمل از طریق دادن پاداش و تنبیه است بدون اینکه لازم باشد نحوه انجام عمل را برای عامل مشخص نمائیم.
الگوریتم یادگیری تقویت شده Reinforcement Learning
در یک مسئله RL استاندارد با اجزای اصلی زیر روبرو هستیم:
عامل
که قرار است یادگیری را از طریق تعامل با محیط انجام دهد. برای اینکار باید
اعمالی که عامل میتواند در محیط انجام دهد مشخص باشند.
محیط
برای محیط باید مشخصه های زیر تعیین شوند:
وضعیت
پاداش
عامل میتواند از طریق ورودیهایش تشخیص دهد که در چه وضعیتی قرار دارد. عامل در وضعیت St عمل at را انجام میدهد. اینکار باعث میشود وضعیت محیط به St+1 تغییر نماید. در اثر این تغییر وضعیت عامل سیگنال reinforcement و یا پاداش rt+1 را از محیط دریافت می نماید.
این محیط باید قابل مشاهده ویا حداقل تا قسمتی قابل مشاهده برای عامل باشد. (partially observable)
مشاهده محیط ممکن است از طریق خواندن اطلاعات یک سنسور، توضیح سمبلیک و غیره باشد.
عمل یادگیری عبارت است ازیاد گرفتن یک سیاست که در واقع نگاشتی از وضعیت به عمل است به نحوی که استفاده از این سیاست برای انتخاب اعمال منجر به دریافت پاداش حداکثر از محیط گردد.
الگوریتم یادگیری تقویت شده Reinforcement Learning
در RLوقتی عامل در یک حالت خاص عملی را انجام میدهد، در مقابل پاداش (reward or reinforcement) دریافت میکند. در این سیستم عامل وظیفه دارد تا پاداش دریافتی در دراز مدت را حداکثر نماید.
یکی از نکات طراحی یک سیستم RL تعریف یک reinforcement functionمناسب با اهداف عامل است.
پاداش
اگر دنباله ای از پاداش ها بصورت زیر موجود باشند:
عامل باید سعی نماید تا پاداشی را که از محیط دریافت میکند حد اکثر نماید. در واقع امید ریاضی پاداش را به حداکثر میرساند.
در بسیاری از مسایل تعامل با محیط بصورت اپیزودی انجام میشود. مثلا روباتی که قرار است خروج از اتاق را یاد بگیرد به محض خارج شدن از اتاق یک اپیزود یادگیری خاتمه می یابد. لذا کل پاداشی که با شروع از یک حالت St و رسیدن به حالت نهائی ( خاتمه اپیزود یادگیری) ST بدست می آید برابر است با:
در نظر گرفتن پاداشهای آینده
اگر پاداش Rt مجموع پاداشی باشد که عامل با شروع از زمانt میتواند جمع کند به طرق مختلف میتوان این پاداش را محاسبه نمود. یک راه بصورت زیر است که در آن به پاداشهای نزدیکتر ارزش بیشتری داده میشود.
یکی از نکات مهم در انتخاب عمل نحوه لحاظ کردن رخداد های آینده در تصمیم فعلی عامل است. برای اینکه یک عامل بتواند تاثیر رخدادهای آینده در انتخاب عمل مناسب برای حالت فعلی را در نظر بگیرد مدلهای مختلفی پیشنهاد شده است:
finite horizon
ساده ترین مدل این است که عامل برای انتخاب عمل مقادیر پاداشی را که در h مرحله بعد میگیرد محاسبه نموده و عملی را انتخاب نماید که مجموع پاداش را حداکثر نماید.
(discounted cumulative reward( infinite horizon
در این روش بجای h مرحله، پاداش درازمدت دریافتی در نظر گرفته میشود. این روش بسیار مرسوم بوده و به پاداشهائی که در آینده گرفته خواهد شد ارزش کمتری نسبت به پاداشهای فوری داده میشود.
average reward
در این روش فرقی بین پاداشهای نزدیک و دور در نظر گرفته نمیشود.
30 تا 70 درصد پروژه | پاورپوینت | سمینار | طرح های کارآفرینی و توجیهی | پایان-نامه | پی دی اف مقاله ( کتاب ) | نقشه | پلان طراحی | های آماده به صورت رایگان میباشد ( word | pdf | docx | doc )
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.