توسعه دهنده بلاکچین و مشاور تکنولوژی
آموزش مفاهیم مقدماتی یادگیری تقویتی و پایتون به زبان ساده و قابل فهم
تحلیل الگوریتم پاداش پروژه google deep mind
آموزش مفاهیم مقدماتی یادگیری تقویتی و پایتون به زبان ساده و قابل فهم
ساخت شبکه های عصبی و شبکه عصبی پیچشی (convolutional neural networks) در پای تورچ (PyTorch)
۱. توسعه متدهای یادگیری تقویتی ارزش محور برای مشکلات پیچیده با استفاده از شبکه های عصبی عمیق ۲. پیاده سازی DQN همزمان با Double-DQN، Dueling-DQN و Prioritized Replay
استفاده از شبکه های عصبی برای آموزش عامل یا ایجنت که رفتارهای هوشمند را از داده های حسی (sensory data) یاد میگیرد.
۱. تئوری الگوریتم های تکاملی، stochastic policy search و الگوریتم تقویتی ۲. استفاده از الگوریتم ها برای حل مشکل کنترل کلاسیک
۱. یادگیری تکنیک هایی مانند Generalized Advantage Estimation (GAE) برای کاهش واریانس متدهای policy gradient ۲. شناخت متدهای بهینه سازی policy مانند Trust Region Policy Optimization (TRPO و Proximal Policy Optimization (PPO)
آموزش الگوریتم های جدید مانند Deep Deterministic Policy Gradients (DDPG)
یادگیری استفاده از متدهای عملگر-منتقد (actor-critic) برای ایجاد استراتژی های تریدینگ مالی بهینه
آموزش حرکت بازوی رباتیک برای دستیابی به لوکیشن های موردنظر یا آموزش حرکت یک موجود مجازی
۱. تعریف بازی های مارکوف (Markov games) برای تعیین وظیفه یا تسک یادگیری تقویتی چند عاملی ۲. آموزش ایجنت ها در شرایط همکاری و رقابت
ربات یادگیری عمیق تقویتی برای ترید ارزهای دیجیتال