Empfehlungssysteme sind eine Schlüsseltechnologie für E-Commerce-Anbieter wie Google, Amazon, Netflix, Booking.com und Spotify. Dementsprechend intensiv arbeitet die Forschung an noch genaueren Vorhersagen, welche Produkte und Dienstleistungen die Nutzerinnen und Nutzer als Nächstes konsumieren wollen. Maurizio Ferrari Dacrema, Paolo Cremonesi und Dietmar Jannach haben in einem kürzlich veröffentlichten Paper allerdings gezeigt, dass es entscheidende Probleme in der Forschungsmethodik gibt, die einen Fortschritt bei der Entwicklung von Empfehlungssystemen behindern. Für das Paper wurden sie bei der renommierten ACM Conference on Recommender Systems in September in Kopenhagen mit dem Best Full Paper Award ausgezeichnet.

Das „Forschungsbusiness“ im Bereich der Empfehlungssysteme hat sich schon seit Jahrzehnten so etabliert: Forscherinnen und Forscher entwickeln neue Algorithmen, mit denen sie auf Basis bisheriger Konsumentscheidungen die zukünftige Auswahl von Nutzerinnen und Nutzer vorhersagen. Dazu ziehen sie historische Daten heran, zum Beispiel den Klick-Weg eines Spotify-Nutzers. Einzelne Auswahlentscheidungen werden verdeckt und die Forschung versucht, mit neuen Algorithmen möglichst genau das vorherzusagen, was die Nutzerinnen und Nutzer im Realen gewählt haben. Dieser Vorgang wird „Offline-Experiment“ genannt. „Die Forschung hat hierbei viele Wahlmöglichkeiten“, erklärt Dietmar Jannach, Professor am Institut für Angewandte Informatik. Die Datensätze können beliebig gewählt werden, genauso verhält es sich mit den Messmethoden und Metriken, die die Voraussagegenauigkeit quantifizieren sollen. „Im globalen Wettrennen um den am genauesten vorhersagenden Algorithmus kann man – im schlimmsten Fall - auch die Konfigurationen so gestalten, dass man um eine auch nur geringe, aber noch signifikante Größe besser und genauer ist als die bisher Besten“, erläutert Jannach.

Dietmar Jannach hat gemeinsam mit zwei italienischen Kollegen 18 wissenschaftliche Artikel analysiert, die zwischen 2015 und 2018 neue, vermeintlich bessere Vorhersage-Algorithmen für Empfehlungssysteme vorschlugen. Dabei kommen sie zu einem ernüchternden Ergebnis: „Viele neue Verfahren sind nicht besser als alte Basisverfahren, an deren weiterer Verbesserung man arbeiten könnte.“

Verantwortlich dafür ist nicht nur die Forschungsmethodik, sondern auch die mangelnde Reproduzierbarkeit der Forschungsarbeiten. Viele würden den Quellcode nicht öffentlich bereitstellen. Außerdem gebe es zu wenige Standards, an denen man alle Ergebnisse einheitlich messen könne. Ein weiteres Problem sei, dass den Untersuchungen zu wenig Theorie zugrunde läge.

„Die Industrie, die unsere Technologie verwerten könnte, braucht langfristig andere Erkenntnisse, die Empfehlungssysteme voranbringen könnten. Heute müssen wir uns auch darüber im Klaren sein: Bessere Vorhersagen müssen nicht gleichermaßen bessere Empfehlungen sein“, so Dietmar Jannach.