Large Language Models (LLMs)

Causality Large Language Models (LLMs)

How to make LLMs more causally consistent.

Open-Endedness Large Language Models (LLMs)

How to measure notions of interestingness without hand-coded formulas for learning agents

PPO - Proximal Policy Optimization

Large Language Models (LLMs)

Fine-tuning LLMs on narrow tasks can unexpectedly produce misaligned behavior on unrelated tasks.

Large Language Models (LLMs)

Learn from preference dataset without the complicated RL setup

Large Language Models (LLMs) Reinforcement Learning

Avoid learning an explicit value function in RL alignment setup