memorax.algorithms
==================

Reinforcement learning algorithms for training agents.

.. currentmodule:: memorax.algorithms

PPO
---

:class:`PPO` - Proximal Policy Optimization for discrete and continuous action spaces.

:class:`PPOConfig` - Configuration dataclass for PPO.

:class:`PPOState` - Training state for PPO.

DQN
---

:class:`DQN` - Deep Q-Network with double and dueling variants.

:class:`DQNConfig` - Configuration dataclass for DQN.

:class:`DQNState` - Training state for DQN.

SAC
---

:class:`SAC` - Soft Actor-Critic for continuous control.

:class:`SACConfig` - Configuration dataclass for SAC.

:class:`SACState` - Training state for SAC.

PQN
---

:class:`PQN` - Parallelised Q-Network (on-policy Q-learning).

:class:`PQNConfig` - Configuration dataclass for PQN.

:class:`PQNState` - Training state for PQN.

.. autosummary::
   :toctree: generated
   :hidden:

   PPO
   PPOConfig
   PPOState
   DQN
   DQNConfig
   DQNState
   SAC
   SACConfig
   SACState
   PQN
   PQNConfig
   PQNState