Informações sobre o curso

170,292 visualizações recentes

Resultados de carreira do aprendiz

25%

comecei uma nova carreira após concluir estes cursos

11%

consegui um benefício significativo de carreira com este curso
Certificados compartilháveis
Tenha o certificado após a conclusão
100% on-line
Comece imediatamente e aprenda em seu próprio cronograma.
Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Nível intermediário

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 15 horas para completar
Inglês

O que você vai aprender

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Habilidades que você terá

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems

Resultados de carreira do aprendiz

25%

comecei uma nova carreira após concluir estes cursos

11%

consegui um benefício significativo de carreira com este curso
Certificados compartilháveis
Tenha o certificado após a conclusão
100% on-line
Comece imediatamente e aprenda em seu próprio cronograma.
Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Nível intermediário

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Aprox. 15 horas para completar
Inglês

oferecido por

Placeholder

Universidade de AlbertaUniversidade de Alberta

Placeholder

Alberta Machine Intelligence Institute

Programa - O que você aprenderá com este curso

Classificação do conteúdoThumbs Up93%(10,362 classificações)Info
Semana
1

Semana 1

1 hora para concluir

Welcome to the Course!

1 hora para concluir
4 vídeos (Total 20 mín.), 2 leituras
4 videos
Course Introduction5min
Meet your instructors!8min
Your Specialization Roadmap3min
2 leituras
Reinforcement Learning Textbook10min
Read Me: Pre-requisites and Learning Objectives10min
4 horas para concluir

An Introduction to Sequential Decision-Making

4 horas para concluir
8 vídeos (Total 46 mín.), 3 leituras, 2 testes
8 videos
Learning Action Values4min
Estimating Action Values Incrementally5min
What is the trade-off?7min
Optimistic Initial Values6min
Upper-Confidence Bound (UCB) Action Selection5min
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8min
Week 1 Summary3min
3 leituras
Module 1 Learning Objectives10min
Weekly Reading30min
Chapter Summary30min
1 exercício prático
Sequential Decision-Making45min
Semana
2

Semana 2

3 horas para concluir

Markov Decision Processes

3 horas para concluir
7 vídeos (Total 36 mín.), 2 leituras, 2 testes
7 videos
Examples of MDPs4min
The Goal of Reinforcement Learning3min
Michael Littman: The Reward Hypothesis12min
Continuing Tasks5min
Examples of Episodic and Continuing Tasks3min
Week 2 Summary1min
2 leituras
Module 2 Learning Objectives10min
Weekly Reading30min
1 exercício prático
MDPs45min
Semana
3

Semana 3

3 horas para concluir

Value Functions & Bellman Equations

3 horas para concluir
9 vídeos (Total 56 mín.), 3 leituras, 2 testes
9 videos
Value Functions6min
Rich Sutton and Andy Barto: A brief History of RL7min
Bellman Equation Derivation6min
Why Bellman Equations?5min
Optimal Policies7min
Optimal Value Functions5min
Using Optimal Value Functions to Get Optimal Policies8min
Week 3 Summary4min
3 leituras
Module 3 Learning Objectives10min
Weekly Reading30min
Chapter Summary13min
2 exercícios práticos
[Practice] Value Functions and Bellman Equations45min
Value Functions and Bellman Equations45min
Semana
4

Semana 4

4 horas para concluir

Dynamic Programming

4 horas para concluir
10 vídeos (Total 72 mín.), 3 leituras, 2 testes
10 videos
Iterative Policy Evaluation8min
Policy Improvement4min
Policy Iteration8min
Flexibility of the Policy Iteration Framework4min
Efficiency of Dynamic Programming5min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21min
Week 4 Summary2min
Congratulations!3min
3 leituras
Module 4 Learning Objectives10min
Weekly Reading30min
Chapter Summary30min
1 exercício prático
Dynamic Programming45min

Avaliações

Principais avaliações do FUNDAMENTALS OF REINFORCEMENT LEARNING

Visualizar todas as avaliações

Sobre Programa de cursos integrados Reforço de aprendizagem

Reforço de aprendizagem

Perguntas Frequentes – FAQ

Mais dúvidas? Visite o Central de Ajuda ao Aprendiz.