Start / AI Safety Fundamentals: Governance / Constitutional ai harmlessness from ai feedback

Constitutional AI Harmlessness from AI Feedback

62 min • 4 januari 2025

This paper explains Anthropic’s constitutional AI approach, which is largely an extension on RLHF but with AIs replacing human demonstrators and human evaluators.

A podcast by BlueDot Impact.

Learn more on the AI Safety Fundamentals website.

Kategorier

Filosofi Poddar Samhälle och kultur Teknologi

Förekommer på

Teknik

00:00 -00:00