当前位置:首页 > AIGC实战-世界模型(World Model)

AIGC实战-世界模型(World Model)

AIGC实战-世界模型。

    • 0. 前言。
    • 1. 强化学习。
    • 2. OpenAI Gym。
      • 2.1 CarRacing 环境。
      • 2.2 GYMNASIUM。
    • 3. 世界模型架构。
      • 3.1 VAE。
      • 3.2 MDN-RNN。
      • 3.3 控制器。
    • 4. 世界模型训练。
      • 4.1 收集随机 rollout 数据。
      • 4.2 训练 VAE。
      • 4.3 训练时收集数据 MDN-RNN。
      • 4.4 训练MDN-RNN。
      • 4.5 训练控制器。
    • 5. 在生成环境中训练。
    • 小结。
    • 系列链接。

0. 前言。

世界模型 (。World Model。) 展示了如何通过在生成的想象环境中进行实验来训练模型(而不是在真实环境中),从而学习如何执行特定的任务。世界模型很好地解释了如何将生成模型与其他机器学习技术(如强化学习)结合起来解决实际问题。
该架构的关键组成部分是生成模型,它可以根据当前状态和动作构建下一个可能状态的概率分布。在通过随机运动建立了对基本物理环境的理解后,模型可以完全依靠自己对环境内部表达的新任务来训练自己。在本章中,我们将详细介绍世界模型,了解智能身体如何尽快在虚拟轨道上驾驶汽车。

1. 强化学习。

强化学习 (。Reinforcement Learning。, RL。) 它是机器学习的一个领域,旨在训练智能身体在给定的环境中实现特定的目标,以最大限度地提高预期的效益。
识别模型和生成模型的目的是通过观察数据集来最大限度地减少损失函数,而强化学习的目的是在给定的环境中最大限度地提高智能主体的长期奖励。通常,强化学习被视为机器学习的三个主要分支之一,另外两个是监督学习(使用标记数据进行预测)和非监督学习(从无标签数据中学习结构)。

接下来,我们将首先介绍一些与加强学习相关的关键概念:

  • 环境 (。Environment。):智能体在其中运行的世界。它定义了一组规则。

分享到: