Sung Kim: Under greedy/low-temp decoding, reasoning LLMs get stuck in loops repeating themselves, wasting test-time compute and sometimes never terminating! They find that: - Low temps => more looping - Smaller models => more looping

Under greedy/low-temp decoding, reasoning LLMs get stuck in loops repeating themselves, wasting test-time compute and sometimes never terminating! They find that: - Low temps => more looping - Smaller models => more looping - Harder problems => more looping