Monitoring computer use via hierarchical summarization

Theodore Sumers, Raj Agarwal, Nathan Bailey, Tim Belonax, Brian Clarke, Jasmine Deng, … (+11 more) — 2025-02-27 — Anthropic — Anthropic Alignment Science Blog

Summary

Introduces hierarchical summarization for AI monitoring: first summarizing individual interactions, then summarizing those summaries to detect harmful usage patterns and emergent risks in Anthropic’s computer use API deployment.

Key Result

Claude 3.5 Sonnet summaries achieved 96% accuracy and 98% completeness for harm determination, successfully detecting both anticipated misuse and novel harmful behaviors like explosive precursor purchases in production deployment.

Source

Link: https://alignment.anthropic.com/2025/summarization-for-monitoring/index.html
Listed in the Shallow Review of Technical AI Safety 2025 under 1 agenda(s):
- safeguards-inference-time-auxiliaries — Black-box safety (understand and control current model behaviour) / Iterative alignment

safeguards-inference-time-auxiliaries

AI Safety Compendium

Explorer

Monitoring computer use via hierarchical summarization

Monitoring computer use via hierarchical summarization

Summary

Key Result

Source

Graph View

Graph view

Table of Contents

AI Safety Compendium

Explorer

Monitoring computer use via hierarchical summarization

Monitoring computer use via hierarchical summarization

Summary

Key Result

Source

Related Pages

Graph View

Graph view

Table of Contents