Informações sobre o curso

195,191 visualizações recentes
Certificados compartilháveis
Tenha o certificado após a conclusão
100% on-line
Comece imediatamente e aprenda em seu próprio cronograma.
Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Nível intermediário

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 15 horas para completar
Inglês

O que você vai aprender

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Habilidades que você terá

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
Certificados compartilháveis
Tenha o certificado após a conclusão
100% on-line
Comece imediatamente e aprenda em seu próprio cronograma.
Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Nível intermediário

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 15 horas para completar
Inglês

oferecido por

Placeholder

Universidade de AlbertaUniversidade de Alberta

Placeholder

Alberta Machine Intelligence Institute

Programa - O que você aprenderá com este curso

Classificação do conteúdoThumbs Up93%(9,758 classificações)Info
Semana
1

Semana 1

1 hora para concluir

Welcome to the Course!

1 hora para concluir
4 vídeos (Total 20 mín.), 2 leituras
4 videos
Course Introduction5min
Meet your instructors!8min
Your Specialization Roadmap3min
2 leituras
Reinforcement Learning Textbook10min
Read Me: Pre-requisites and Learning Objectives10min
4 horas para concluir

An Introduction to Sequential Decision-Making

4 horas para concluir
8 vídeos (Total 46 mín.), 3 leituras, 2 testes
8 videos
Learning Action Values4min
Estimating Action Values Incrementally5min
What is the trade-off?7min
Optimistic Initial Values6min
Upper-Confidence Bound (UCB) Action Selection5min
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8min
Week 1 Summary3min
3 leituras
Module 1 Learning Objectives10min
Weekly Reading30min
Chapter Summary30min
1 exercício prático
Sequential Decision-Making45min
Semana
2

Semana 2

3 horas para concluir

Markov Decision Processes

3 horas para concluir
7 vídeos (Total 36 mín.), 2 leituras, 2 testes
7 videos
Examples of MDPs4min
The Goal of Reinforcement Learning3min
Michael Littman: The Reward Hypothesis12min
Continuing Tasks5min
Examples of Episodic and Continuing Tasks3min
Week 2 Summary1min
2 leituras
Module 2 Learning Objectives10min
Weekly Reading30min
1 exercício prático
MDPs45min
Semana
3

Semana 3

3 horas para concluir

Value Functions & Bellman Equations

3 horas para concluir
9 vídeos (Total 56 mín.), 3 leituras, 2 testes
9 videos
Value Functions6min
Rich Sutton and Andy Barto: A brief History of RL7min
Bellman Equation Derivation6min
Why Bellman Equations?5min
Optimal Policies7min
Optimal Value Functions5min
Using Optimal Value Functions to Get Optimal Policies8min
Week 3 Summary4min
3 leituras
Module 3 Learning Objectives10min
Weekly Reading30min
Chapter Summary13min
2 exercícios práticos
[Practice] Value Functions and Bellman Equations45min
Value Functions and Bellman Equations45min
Semana
4

Semana 4

4 horas para concluir

Dynamic Programming

4 horas para concluir
10 vídeos (Total 72 mín.), 3 leituras, 2 testes
10 videos
Iterative Policy Evaluation8min
Policy Improvement4min
Policy Iteration8min
Flexibility of the Policy Iteration Framework4min
Efficiency of Dynamic Programming5min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21min
Week 4 Summary2min
Congratulations!3min
3 leituras
Module 4 Learning Objectives10min
Weekly Reading30min
Chapter Summary30min
1 exercício prático
Dynamic Programming45min

Avaliações

Principais avaliações do FUNDAMENTALS OF REINFORCEMENT LEARNING

Visualizar todas as avaliações

Sobre Programa de cursos integrados Reforço de aprendizagem

Reforço de aprendizagem

Perguntas Frequentes – FAQ

Mais dúvidas? Visite o Central de Ajuda ao Aprendiz.