Informações sobre o curso

44,982 visualizações recentes

Resultados de carreira do aprendiz

33%

comecei uma nova carreira após concluir estes cursos

56%

consegui um benefício significativo de carreira com este curso

33%

recebi um aumento ou promoção
Certificados compartilháveis
Tenha o certificado após a conclusão
100% on-line
Comece imediatamente e aprenda em seu próprio cronograma.
Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Nível avançado
Aprox. 26 horas para completar
Inglês

Resultados de carreira do aprendiz

33%

comecei uma nova carreira após concluir estes cursos

56%

consegui um benefício significativo de carreira com este curso

33%

recebi um aumento ou promoção
Certificados compartilháveis
Tenha o certificado após a conclusão
100% on-line
Comece imediatamente e aprenda em seu próprio cronograma.
Prazos flexíveis
Redefinir os prazos de acordo com sua programação.
Nível avançado
Aprox. 26 horas para completar
Inglês

oferecido por

Placeholder

Universidade HSE

Programa - O que você aprenderá com este curso

Classificação do conteúdoThumbs Up82%(2,435 classificações)Info
Semana
1

Semana 1

5 horas para concluir

Intro: why should I care?

5 horas para concluir
14 vídeos (Total 85 mín.), 6 leituras, 3 testes
14 videos
Why should you care9min
Reinforcement learning vs all3min
Multi-armed bandit4min
Decision process & applications6min
Markov Decision Process5min
Crossentropy method9min
Approximate crossentropy method5min
More on approximate crossentropy method6min
Evolution strategies: core idea6min
Evolution strategies: math problems5min
Evolution strategies: log-derivative trick8min
Evolution strategies: duct tape6min
Blackbox optimization: drawbacks4min
6 leituras
About the University10min
Rules on the academic integrity in the course10min
FAQ10min
Primers1h
About honors track1min
Extras10min
Semana
2

Semana 2

3 horas para concluir

At the heart of RL: Dynamic Programming

3 horas para concluir
5 vídeos (Total 54 mín.), 3 leituras, 4 testes
5 videos
State and Action Value Functions13min
Measuring Policy Optimality6min
Policy: evaluation & improvement10min
Policy and value iteration8min
3 leituras
Optional: Reward discounting from a mathematical perspective10min
External links: Reward Design10min
Discrete Stochastic Dynamic Programming10min
3 exercícios práticos
Reward design8min
Optimality in RL30min
Policy Iteration30min
Semana
3

Semana 3

3 horas para concluir

Model-free methods

3 horas para concluir
6 vídeos (Total 47 mín.), 1 leitura, 4 testes
6 videos
Monte-Carlo & Temporal Difference; Q-learning8min
Exploration vs Exploitation8min
Footnote: Monte-Carlo vs Temporal Difference2min
Accounting for exploration. Expected Value SARSA11min
On-policy vs off-policy; Experience replay7min
1 leituras
Extras10min
1 exercício prático
Model-free reinforcement learning30min
Semana
4

Semana 4

3 horas para concluir

Approximate Value Based Methods

3 horas para concluir
9 vídeos (Total 104 mín.), 3 leituras, 5 testes
9 videos
Loss functions in value based RL11min
Difficulties with Approximate Methods15min
DQN – bird's eye view9min
DQN – the internals9min
DQN: statistical issues6min
Double Q-learning6min
More DQN tricks10min
Partial observability17min
3 leituras
TD vs MC10min
Extras10min
DQN follow-ups10min
3 exercícios práticos
MC & TD10min
SARSA and Q-learning10min
DQN30min

Avaliações

Principais avaliações do PRACTICAL REINFORCEMENT LEARNING

Visualizar todas as avaliações

Sobre Programa de cursos integrados Aprendizagem de máquina avançada

Aprendizagem de máquina avançada

Perguntas Frequentes – FAQ

Mais dúvidas? Visite o Central de Ajuda ao Aprendiz.