memorax.algorithms.GradientPPOConfig

memorax.algorithms.GradientPPOConfig#

class memorax.algorithms.GradientPPOConfig[source]#

Bases: object

GradientPPOConfig(num_envs: int, num_steps: int, gamma: float, gae_lambda: float, num_minibatches: int, update_epochs: int, normalize_advantage: bool, clip_coefficient: float, clip_value_loss: bool, entropy_coefficient: float, regularization_coefficient: float, truncation_length: int, burn_in_length: int = 0)

num_envs: int#

num_steps: int#

gamma: float#

gae_lambda: float#

num_minibatches: int#

update_epochs: int#

normalize_advantage: bool#

clip_coefficient: float#

clip_value_loss: bool#

entropy_coefficient: float#

regularization_coefficient: float#

truncation_length: int#

burn_in_length: int = 0#

property batch_size#

__init__(num_envs, num_steps, gamma, gae_lambda, num_minibatches, update_epochs, normalize_advantage, clip_coefficient, clip_value_loss, entropy_coefficient, regularization_coefficient, truncation_length, burn_in_length=0)#

Parameters:

num_envs (int)
num_steps (int)
gamma (float)
gae_lambda (float)
num_minibatches (int)
update_epochs (int)
normalize_advantage (bool)
clip_coefficient (float)
clip_value_loss (bool)
entropy_coefficient (float)
regularization_coefficient (float)
truncation_length (int)
burn_in_length (int)

Return type:

None

replace(**updates)#: Returns a new object replacing the specified fields with new values.

memorax.algorithms.GradientPPOConfig

Contents

memorax.algorithms.GradientPPOConfig#