ray.rllib.policy.torch_policy_v2.TorchPolicyV2.init#

TorchPolicyV2.__init__(observation_space: gymnasium.spaces.Space, action_space: gymnasium.spaces.Space, config: dict, *, max_seq_len: int = 20)[source]#

Initializes a TorchPolicy instance.

Parameters:

observation_space – Observation space of the policy.
action_space – Action space of the policy.
config – The Policy’s config dict.
max_seq_len – Max sequence length for LSTM training.