image description

برای مشاهده دوره لطفا ثبت نام کنید

1
42 دقیقه
آشنایی با پایتون و کاربرد آن در یادگیری تقویتی عمیق - بخش دوم

آموزش مفاهیم مقدماتی یادگیری تقویتی و پایتون به زبان ساده و قابل فهم

2
4 دقیقه
ارتباط مدل یادگیرنده به محیط

تشریح مفهوم ACTION , STATE , REWARD

3
3 دقیقه
مثال پاداش برای راه رفتن ربات از پروژه google deep mind

تحلیل الگوریتم پاداش پروژه google deep mind

4
6 دقیقه
تخفیف ها در پاداش

استراتژی پاداش برای آینده

5
10 دقیقه
فرآیند تصمیم گیری مارکوف

روش تحلیل و پاداش دهی با فرآیند تصمیم گیری مارکوف با یک مثال عملی

6
4 دقیقه
مفاهیم سیاست ها

درک مفهوم deterministic policy و stochastic policy

7
4 دقیقه
انتخاب بهترین سیاست

مفهوم state value function

8
3 دقیقه
معادله بلمن

معرفی معادله بلمن برای بهینه سازی

9
3 دقیقه
بهترین policy

انتخاب سیاست های بهینه تر

10
5 دقیقه
معرفی action value function

معرفی action value function و انتخاب سیاست بهینه

11
52 دقیقه
آشنایی با پایتون و کاربرد آن در یادگیری تقویتی عمیق - بخش اول

آموزش مفاهیم مقدماتی یادگیری تقویتی و پایتون به زبان ساده و قابل فهم

1
4 ساعت
یادگیری عمیق در پای تورچ (PYTORCH)

ساخت شبکه های عصبی و شبکه عصبی پیچشی (convolutional neural networks) در پای تورچ (PyTorch)

2
4 ساعت
یادگیری کیو (Deep Q-Learning)

۱. توسعه متدهای یادگیری تقویتی ارزش محور برای مشکلات پیچیده با استفاده از شبکه های عصبی عمیق ۲. پیاده سازی DQN همزمان با Double-DQN، Dueling-DQN و Prioritized Replay

3
4 ساعت
یادگیری عمیق تقویتی در رباتیک

استفاده از متدهای ارزش محور در پروژه های واقعی رباتیک

4
4 ساعت
پروژه نهایی: navigation

استفاده از شبکه های عصبی برای آموزش عامل یا ایجنت که رفتارهای هوشمند را از داده های حسی (sensory data) یاد میگیرد.

1
4 ساعت
مقدمه ای بر متدهای سیاست محور

۱. تئوری الگوریتم های تکاملی، stochastic policy search و الگوریتم تقویتی ۲. استفاده از الگوریتم ها برای حل مشکل کنترل کلاسیک

2
4 ساعت
بهبود متدهای گرادیان سیاست (Policy Gradient)

۱. یادگیری تکنیک هایی مانند Generalized Advantage Estimation (GAE) برای کاهش واریانس متدهای policy gradient ۲. شناخت متدهای بهینه سازی policy مانند Trust Region Policy Optimization (TRPO و Proximal Policy Optimization (PPO)

3
4 ساعت
متدهای عملگر-منتقد (Actro-Critic)

آموزش الگوریتم های جدید مانند Deep Deterministic Policy Gradients (DDPG)

4
4 ساعت
یادگیری عمیق تقویتی برای معاملات مالی

یادگیری استفاده از متدهای عملگر-منتقد (actor-critic) برای ایجاد استراتژی های تریدینگ مالی بهینه

5
4 ساعت
پروژه نهایی: کنترل پیوسته

آموزش حرکت بازوی رباتیک برای دستیابی به لوکیشن های موردنظر یا آموزش حرکت یک موجود مجازی

1
4 ساعت
معرفی یادگیری تقویتی چند عاملی

۱. تعریف بازی های مارکوف (Markov games) برای تعیین وظیفه یا تسک یادگیری تقویتی چند عاملی ۲. آموزش ایجنت ها در شرایط همکاری و رقابت

2
4 ساعت
بررسی موردی: آلفازیرو

تسلط بر مهارت های DeepMind’s AlphaZero

1
116 ساعت و 40 دقیقه
ربات ترید با یادگیری عمیق تقویتی

ربات یادگیری عمیق تقویتی برای ترید ارزهای دیجیتال

دانلود نرم افزار موبایل آموزشگاه فنی و حرفه ای گیتی افروز

با دانلود و نصب این اپلیکیشن میتوانید از تمامی خدمات آموزش مجازی ما در گوشی هوشمند خود بهره مند شوید.

دانلود اپ اندروید