AI Safety Compendium

Home

❯

summaries

❯

Interpreting Emergent Planning in Model Free Reinforcement Learning

Interpreting Emergent Planning in Model-Free Reinforcement Learning

27 Apr 20261 min read

Interpreting Emergent Planning in Model-Free Reinforcement Learning

Thomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger — 2025-04-02

Source

Link: https://arxiv.org/pdf/2504.01871
Listed in the Shallow Review of Technical AI Safety 2025 under 1 agenda(s):
- reverse-engineering — White-box safety (i.e. Interpretability)

Related Pages

reverse-engineering

Graph View

Graph view

The interactive citation graph is desktop-only. Visit this page on a larger screen to explore how concepts, agendas, papers, and organisations link together.

Interpreting Emergent Planning in Model-Free Reinforcement Learning
Source
Related Pages

Suggest a source
Connect
Overview
About (proof of concept)
Email feedback
Made by IT for Humanity

AI Safety Compendium

Explorer

Interpreting Emergent Planning in Model-Free Reinforcement Learning

Interpreting Emergent Planning in Model-Free Reinforcement Learning

Source

Graph View

Graph view

Table of Contents