强化学习工具箱

 

强化学习工具箱

使用强化学习设计和训练策略

开始:

强化学习代理

创建和配置强化学习代理,以在BG大游app和动态仿真模块中训练策略. 使用内置或开发自定义强化学习算法.

强化学习算法

使用深度q -网络(DQN)创建代理, 深度确定性策略梯度(DDPG), 近端策略优化(PPO), 以及其他内置算法. 使用模板为培训策略开发自定义代理.

各种训练算法,包括SARSA, 囊, DDPG等.

强化学习工具箱中提供的训练算法.

强化学习设计器App

交互设计、训练和模拟强化学习代理. 将训练过的代理导出到BG大游app中,以便进一步使用和部署.

基于深度神经网络的政策与价值函数表示

对于具有较大状态-动作空间的复杂系统, 编程地定义深度神经网络策略, 使用图层 深度学习工具箱,或与 深度网络设计器. 或者,使用工具箱建议的默认网络体系结构. Initialize the policy using imitation learning to accelerate 火车ing. 导入和导出ONNX模型,以实现与其他深度学习框架的互操作性.

动态仿真模块中的单智能体和多智能体强化学习

使用RL Agent块在动态仿真模块中创建和训练强化学习代理. 在动态仿真模块中使用RL Agent块的多个实例同时训练多个代理(多代理强化学习).

带有RL代理块的动态仿真模块模型.

动态仿真模块的强化学习代理块.

环境建模

创建BG大游app和动态仿真模块环境模型. 描述系统动力学,并为训练代理提供观察和奖励信号.

动态仿真模块和Simscape环境

使用动态仿真模块和Simscape™创建环境模型. 在模型中指定观察、行动和奖励信号.

两足机器人的动态仿真模块环境模型.

两足机器人的动态仿真模块环境模型.

BG大游app环境中

使用BG大游app函数和类来建模环境. 在BG大游app文件中指定观察、行动和奖励变量.

一种三自由度火箭的BG大游app环境.

BG大游app环境下的三自由度火箭.

加速训练

利用GPU、云和分布式计算资源加速训练.

GPU加速

使用高性能NVIDIA加速深度神经网络训练和推理® gpu. 使用BG大游app 并行计算工具箱 以及大多数支持cuda的NVIDIA gpu 计算能力3.0或更高.

GPU硬件.

使用gpu加速训练.

代码生成和部署

将训练过的策略部署到嵌入式设备或将其与广泛的生产系统集成.

代码生成

使用 GPU编码器™ 从代表训练策略的BG大游app代码中生成优化的CUDA代码. 使用 BG大游app编码器™ 生成C/ c++代码来部署策略.

GPU Coder配置界面.

使用GPU编码器生成CUDA代码.

BG大游app编译器支持

使用 BG大游app编译器™ 而且 BG大游app编译SDK™ 将训练好的策略部署为独立的应用程序,C/ c++共享库,微软® .NET程序集,Java® 类和Python® 包.

BG大游app编译器屏幕创建一个独立的应用程序.

将策略打包和共享为独立的程序.

参考例子

设计机器人控制器和决策算法, 自动驾驶, 校准, 调度, 以及其他应用.

调优,校准和调度

为调优、校准和调度应用程序设计强化学习策略.

由三台水泵、蓄水池和水箱组成的配水系统.

水资源分配的资源分配问题.

强化学习视频系列

观看本系列视频,了解更多关于强化学习的知识.