Goodharts Gesetz und große Sprachmodelle: Wenn KI den Test beherrscht statt das Fach
Wenn eine Messgröße zum Ziel wird, hört sie auf, eine gute Messgröße zu sein. LLMs sind inzwischen der teuerste Beweis dieses Prinzips: Ihre Benchmark-Scores steigen, während sie genau die Metriken umgehen, die sie eigentlich erfüllen sollen.
Künstliche Intelligenz Zeitlos