Informações sobre o curso
160,864 visualizações recentes

100% on-line

Comece imediatamente e aprenda em seu próprio cronograma.

Prazos flexíveis

Redefinir os prazos de acordo com sua programação.

Nível intermediário

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 19 horas para completar

Sugerido: 4-6 hours/week...

Inglês

Legendas: Inglês

O que você vai aprender

  • Check

    Formalize problems as Markov Decision Processes

  • Check

    Understand basic exploration methods and the exploration / exploitation tradeoff

  • Check

    Understand value functions, as a general-purpose tool for optimal decision-making

  • Check

    Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Habilidades que você terá

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

100% on-line

Comece imediatamente e aprenda em seu próprio cronograma.

Prazos flexíveis

Redefinir os prazos de acordo com sua programação.

Nível intermediário

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 19 horas para completar

Sugerido: 4-6 hours/week...

Inglês

Legendas: Inglês

Programa - O que você aprenderá com este curso

Semana
1
1 hora para concluir

Welcome to the Course!

4 vídeos (Total 20 mín.), 2 leituras
4 videos
Course Introduction5min
Meet your instructors!8min
Your Specialization Roadmap3min
2 leituras
Reinforcement Learning Textbook10min
Read Me: Pre-requisites and Learning Objectives10min
7 horas para concluir

The K-Armed Bandit Problem

8 vídeos (Total 46 mín.), 3 leituras, 2 testes
8 videos
Learning Action Values4min
Estimating Action Values Incrementally5min
What is the trade-off?7min
Optimistic Initial Values6min
Upper-Confidence Bound (UCB) Action Selection5min
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8min
Week 1 Summary3min
3 leituras
Module 2 Learning Objectives10min
Weekly Reading30min
Chapter Summary30min
1 exercício prático
Exploration/Exploitation45min
Semana
2
4 horas para concluir

Markov Decision Processes

7 vídeos (Total 36 mín.), 2 leituras, 2 testes
7 videos
Examples of MDPs4min
The Goal of Reinforcement Learning3min
Michael Littman: The Reward Hypothesis12min
Continuing Tasks5min
Examples of Episodic and Continuing Tasks3min
Week 2 Summary1min
2 leituras
Module 3 Learning Objectives10min
Weekly Reading30min
1 exercício prático
MDPs45min
Semana
3
3 horas para concluir

Value Functions & Bellman Equations

9 vídeos (Total 56 mín.), 3 leituras, 2 testes
9 videos
Value Functions6min
Rich Sutton and Andy Barto: A brief History of RL7min
Bellman Equation Derivation6min
Why Bellman Equations?5min
Optimal Policies7min
Optimal Value Functions5min
Using Optimal Value Functions to Get Optimal Policies8min
Week 3 Summary4min
3 leituras
Module 4 Learning Objectives10min
Weekly Reading30min
Chapter Summary13min
2 exercícios práticos
Value Functions and Bellman Equations45min
Value Functions and Bellman Equations45min
Semana
4
7 horas para concluir

Dynamic Programming

10 vídeos (Total 72 mín.), 3 leituras, 2 testes
10 videos
Iterative Policy Evaluation8min
Policy Improvement4min
Policy Iteration8min
Flexibility of the Policy Iteration Framework4min
Efficiency of Dynamic Programming5min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21min
Week 4 Summary2min
Congratulations!3min
3 leituras
Module 5 Learning Objectives10min
Weekly Reading30min
Chapter Summary30min
1 exercício prático
Dynamic Programming45min
4.8
120 avaliaçõesChevron Right

Principais avaliações do Fundamentals of Reinforcement Learning

por PVNov 10th 2019

I understood all the necessary concepts of RL. I've been working on RL for some time now, but thanks to this course, now I have more basic knowledge about RL and can't wait to watch other courses

por ABSep 7th 2019

Concepts are bit hard, but it is nice if you undersand it well, espically the bellman and dynamic programming.\n\nSometimes, visualizing the problem is hard, so need to thoroghly get prepared.

Instrutores

Avatar

Martha White

Assistant Professor
Computing Science
Avatar

Adam White

Assistant Professor
Computing Science

Sobre Universidade de AlbertaUniversidade de Alberta

UAlberta is considered among the world’s leading public research- and teaching-intensive universities. As one of Canada’s top universities, we’re known for excellence across the humanities, sciences, creative arts, business, engineering and health sciences....

Sobre Alberta Machine Intelligence Institute

The Alberta Machine Intelligence Institute (Amii) is home to some of the world’s top talent in machine intelligence. We’re an Alberta-based research institute that pushes the bounds of academic knowledge and guides business understanding of artificial intelligence and machine learning....

Sobre Programa de cursos integrados Reforço de aprendizagem

The Reinforcement Learning Specialization consists of 4 courses exploring the power of adaptive learning systems and artificial intelligence (AI). Harnessing the full potential of artificial intelligence requires adaptive learning systems. Learn how Reinforcement Learning (RL) solutions help solve real-world problems through trial-and-error interaction by implementing a complete RL solution from beginning to end. By the end of this Specialization, learners will understand the foundations of much of modern probabilistic artificial intelligence (AI) and be prepared to take more advanced courses or to apply AI tools and ideas to real-world problems. This content will focus on “small-scale” problems in order to understand the foundations of Reinforcement Learning, as taught by world-renowned experts at the University of Alberta, Faculty of Science. The tools learned in this Specialization can be applied to game development (AI), customer interaction (how a website interacts with customers), smart assistants, recommender systems, supply chain, industrial control, finance, oil & gas pipelines, industrial control systems, and more....
Reforço de aprendizagem

Perguntas Frequentes – FAQ

  • Ao se inscrever para um Certificado, você terá acesso a todos os vídeos, testes e tarefas de programação (se aplicável). Tarefas avaliadas pelos colegas apenas podem ser enviadas e avaliadas após o início da sessão. Caso escolha explorar o curso sem adquiri-lo, talvez você não consiga acessar certas tarefas.

  • Quando você se inscreve no curso, tem acesso a todos os cursos na Especialização e pode obter um certificado quando concluir o trabalho. Seu Certificado eletrônico será adicionado à sua página de Participações e você poderá imprimi-lo ou adicioná-lo ao seu perfil no LinkedIn. Se quiser apenas ler e assistir o conteúdo do curso, você poderá frequentá-lo como ouvinte sem custo.

Mais dúvidas? Visite o Central de Ajuda ao Aprendiz.