policy-optimization

Star

Here are 33 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

Star

Multi-Agent Constrained Policy Optimisation (MACPO; MAPPO-L).

multi-agent-reinforcement-learning policy-optimization safe-reinforcement-learning

Updated Apr 17, 2024
Python

elsheikh21 / car-racing-ppo

Star

Implementation of a Deep Reinforcement Learning algorithm, Proximal Policy Optimization (SOTA), on a continuous action space openai gym (Box2D/Car Racing v0)

deep-reinforcement-learning openai-gym proximal-policy-optimization ppo policy-optimization

Updated Apr 2, 2019
Python

cxxgtxy / POP3D

Star

Policy Optimization with Penalized Point Probability Distance: an Alternative to Proximal Policy Optimization

reinforcement-learning deep-learning proximal-policy-optimization policy-optimization

Updated Nov 8, 2018
Python

manantomar / Mirror-Descent-Policy-Optimization

Star

Mirror Descent Policy Optimization

reinforcement-learning deep-learning deep-reinforcement-learning deep-learning-algorithms sac trpo deep-rl ppo deep-learning-ai policy-optimization stable-baselines model-free-rl mirror-descent mdpo

Updated Oct 31, 2020
Python

Guowei-Zou / d2ppo-release

Star

[AAAI 2026] D²PPO: Diffusion Policy Policy Optimization with Dispersive Loss.

control robotics rl manipulation fine-tuning post-training policy-optimization online-rl diffusion-policy

Updated Nov 22, 2025
Python

CLAIRE-Labo / no-representation-no-trust

Star

Codebase to fully reproduce the results of "No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO" (Moalla et al. 2024). Uses TorchRL and provides extensive tools for studying representation dynamics in policy optimization.

reinforcement-learning deep-learning policy-optimization

Updated Nov 20, 2024
Python

MahanFathi / Model-Based-RL

Star

Model-based Policy Gradients

reinforcement-learning openai-gym pytorch computation-graph gym policy-gradient finite-difference backpropagation computational-graphs mujoco model-based ilqg ilqr ilqg-mujoco mujoco-py policy-gradients policy-optimization direct-policy-search mujoco-dynamics

Updated Mar 12, 2020
Python

liziniu / policy_optimization

Star

Code for Paper (Policy Optimization in RLHF: The Impact of Out-of-preference Data)

bandit stochastic-approximation policy-optimization large-language-models rlhf

Updated Dec 19, 2023
Python

sarmueller / gibo

Star

This repository contains the code for the paper "Local policy search with Bayesian optimization".

reinforcement-learning pytorch gym policy-gradient gradient-descent bayesian-optimization active-learning mujoco policy-optimization

Updated Oct 27, 2022
Jupyter Notebook

trajectoryRL / trajectoryRL

Star

Bittensor Subnet 11 — an open skill factory that uses distributed compute and RL to produce state-of-the-art skills for AI agents.

reinforcement-learning subnet ai-agents policy-optimization bittensor decentralized-ai agent-skills skill-factory

Updated May 17, 2026
Python

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

Star

reinforcement-learning deep-reinforcement-learning openai-gym pytorch policy-gradient proximal-policy-optimization ppo atari-pong policy-optimization

Updated Feb 28, 2023
Jupyter Notebook

vbdi / cppo

Star

CPPO: Contrastive Perception for Vision Language Policy Optimization

reinforcement-learning-algorithms policy-optimization contrastive-learning perception-aware vision-language-model entropy-based-approach cppo vision-token

Updated Feb 18, 2026
Python

shaheennabi / Reinforcement-Learning-Zero-to-Hero

Sponsor

Star

Reinforcement Learning (RL)! This repository is your hands-on guide to implementing RL algorithms, from Markov Decision Processes (MDPs) to advanced methods like PPO and DDPG. Build smart agents, learn the math behind policies, and experiment with real-world applications!

agent research reinforcement-learning monte-carlo policy-gradient markov-decision-processes temporal-differencing-learning proximal-policy-optimization model-based-rl actor-critic-algorithm policy-optimization model-free-rl

Updated Jan 27, 2026
Python

lucidrains / dmpo

Star

Implementation and explorations into MPO / DMPO

reinforcement-learning deep-learning artificial-intelligence policy-optimization

Updated May 22, 2026

tuanrpt / PRPO

Star

Paragraph-level Policy Optimization for Vision-Language Deepfake Detection - ICML 2026

reinforcement-learning explainable-ai policy-optimization deepfake-detection multimodal-large-language-models vision-language-models multimodal-reasoning paragraph-level-reasoning deepfake-explainability

Updated May 8, 2026
Python

proceduralia / randomist

Star

Code for Policy Optimization as Online Learning with Mediator Feedback

thompson-sampling exploration mcmc multi-armed-bandits policy-optimization

Updated Dec 27, 2020
Python

grassking100 / reinforcement_learning

Star

An implementation of the reinforcement learning for CartPole-v0 by policy optimization

reinforcement-learning deep-learning pytorch cartpole-v0 policy-optimization

Updated Dec 17, 2021
Python

Sahel13 / particle-pomdp

Star

Code accompanying the NeurIPS 2025 paper "Sequential Monte Carlo for Policy Optimization in Continuous POMDPs".

reinforcement-learning pomdps sequential-monte-carlo policy-optimization

Updated Oct 8, 2025
Python

althea-yuquan-chen / Decision-Focused-Uplift-Modeling

Star

A decision-focused uplift modeling framework that jointly optimizes CATE prediction and treatment allocation policy via a shared-layer neural network, benchmarked against S-Learner, X-Learner, UpliftRank, and GRF on CRITEO-UPLIFT v2.

python deep-learning tensorflow keras causal-inference treatment-effects uplift-modeling marketing-analytics policy-optimization criteo-dataset decision-focused-learning

Updated Apr 20, 2026
Jupyter Notebook

Pink54089 / APO-HAL-EMS

Star

Universal governance layer for critical infrastructure control systems. Deterministic validation of AI, automation, and human decisions.

infrastructure ai agnostic ems critical-infrastructure solution-architecture policy-optimization energy-management-systems hardware-abstraction-layer deterministic-systems

Updated Apr 28, 2026
TypeScript

Improve this page

Add a description, image, and links to the policy-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the policy-optimization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

policy-optimization

Here are 33 public repositories matching this topic...

chauncygu / Multi-Agent-Constrained-Policy-Optimisation

elsheikh21 / car-racing-ppo

cxxgtxy / POP3D

manantomar / Mirror-Descent-Policy-Optimization

Guowei-Zou / d2ppo-release

CLAIRE-Labo / no-representation-no-trust

MahanFathi / Model-Based-RL

liziniu / policy_optimization

sarmueller / gibo

trajectoryRL / trajectoryRL

bmaxdk / OpenAI-Gym-PongDeterministic-v4-PPO

vbdi / cppo

shaheennabi / Reinforcement-Learning-Zero-to-Hero

lucidrains / dmpo

tuanrpt / PRPO

proceduralia / randomist

grassking100 / reinforcement_learning

Sahel13 / particle-pomdp

althea-yuquan-chen / Decision-Focused-Uplift-Modeling

Pink54089 / APO-HAL-EMS

Improve this page

Add this topic to your repo