DebateLLM

Jupyter Notebook ★ 58 updated 2mo ago

Benchmarking Multi-Agent Debate between Language Models for Truthfulness in Q&A.

No plain-English explanation yet — one is being written right now. Check back in a minute.