ray.rllib.policy.torch_policy_v2.TorchPolicyV2.learn_on_batch_from_replay_buffer#

TorchPolicyV2.learn_on_batch_from_replay_buffer(replay_actor: ActorHandle, policy_id: str) → Dict[str, numpy.array | jnp.ndarray | tf.Tensor | torch.Tensor]#

Samples a batch from given replay actor and performs an update.

Parameters: