Bewertung unseres Empfehlungssystems:

Metriken und Kennzahlen

Unser Ziel ist es, Nutzer:innen an den richtigen Stellen zum richtigen Zeitpunkt relevante, vielfältige und ausgewogene Inhalte zu empfehlen – im Sinne des öffentlich-rechtlichen Auftrags. Doch wie stellen wir sicher, dass unser Empfehlungssystem diesen Anforderungen gerecht wird?

Metriken

Dafür analysieren und optimieren wir kontinuierlich verschiedene Kennzahlen und Metriken. Diese verfolgen zwei wesentliche Ziele:

  • Wirksamkeit – Wie präzise sagt das Empfehlungssystem Nutzer:innen relevante Inhalte vorher?
  • Öffentlich-rechtliche Grundsätze – Sind die Empfehlungen frei von Verzerrungen und ausgewogen?

Die folgenden Abschnitte geben einen detaillierten Einblick in die Kennzahlen und Metriken, die wir nutzen, um unser Empfehlungssystem zu bewerten und kontinuierlich zu verbessern.

Identifizierung von relevanten Empfehlungen

Die Bewertung der Wirksamkeit unseres Empfehlungssystems basiert auf Interaktionsdaten. Diese liefern Kennzahlen wieSehvolumen (Gesamtanzahl der angesehenen Minuten) und Click-Through-Rate (CTR) (Anteil der angeklickten Empfehlungen relativ zur Gesamtanzahl der angezeigten Empfehlungen). Um Interaktionen zu maximieren, sagt unser Empfehlungssystem vorher, welche Inhalte für Nutzer:innen relevant sind – und ordnet diese dann in absteigender Reihenfolge der Relevanz. Zur Bewertung der Präzision dieser Vorhersagen nutzen wir die folgende Ranking-Metrik:

Der Mittlere Reziproke Rang (MRR) misst, wie weit oben in einer Empfehlungsliste die erste relevante Empfehlung erscheint, wobei Relevanz anhand einer tatsächlichen Interaktion gemessen wird.

Berechnung:

Notation:

  • \(|Q|\) ist die Gesamtzahl der analysierten Empfehlungslisten.
  • \(rank_i\) ist die Position der ersten relevanten Empfehlung in der Liste \(i\).

Formel:

\[ \text{MRR} = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{rank_i}\]

Erklärung:

Der MRR berechnet den Durchschnitt des Kehrwerts der ersten relevanten Empfehlung in jeder Liste. Das bedeutet: Steht die erste relevante Empfehlung an Position 1, zählt sie mit 1,0. Steht sie an Position 2, zählt sie mit 0,5, bei Position 3 mit 0,33 usw.

Position (\(rank_i\)) 1 2 3 4 5 6 7 8 9 10
Kehrwert 1,00 0,50 0,33 0,25 0,20 0,17 0,14 0,12 0,11 0,10
Interpretation:
  • Hoher MRR-Wert (nahe 1) → Relevante Inhalte erscheinen weit oben in der Liste.
  • Niedriger MRR-Wert (nahe 0) → Das System priorisiert weniger relevante Inhalte oder es gibt zu wenige relevante Vorschläge.
Limitierungen:
  • Der MRR berücksichtigt nur die erste relevante Empfehlung und ignoriert alle weiteren nützlichen Treffer. Daher eignet er sich besonders für Szenarien, in denen nur eine relevante Empfehlung erwartet wird, ist aber weniger aussagekräftig, wenn mehrere gute Empfehlungen von Bedeutung sind.
  • Er ist sehr empfindlich gegenüber der Positionierung an den vorderen Plätzen, da der Kehrwert mit zunehmender Position stark abfällt.

Ergänzend nutzen wir etablierte Metriken wie den Normalized Discounted Cumulative Gain (NDCG), um weitere Aspekte der Empfehlungsqualität zu bewerten.

Minimierung von Verzerrungen

Empfehlungsalgorithmen können systematische Verzerrungen aufweisen, z. B. eine Überbetonung populärer Inhalte oder eine Vernachlässigung neuer Inhalte. Unabhängig von der Wirksamkeit sehen wir uns durch die öffentlich-rechtlichen Grundsätze der Objektivität und Unparteilichkeit dazu verpflichtet, diesen Effekten entgegenzuwirken. Dazu berücksichtigen wir zusätzliche Metriken:

Popularität ordnet Inhalte nach der Anzahl der stattgefundenen Interaktionen:

Berechnung:

Für einen Inhalt \(𝒊\) aus der Gesamtmenge \(𝑰\) aller Inhalte berechnen wir Popularität wie folgt:

\[ \text{Popularität}(i) = \frac{\text{Anzahl der Inhalte mit weniger Inhalt als Inhalt } i}{\text{Gesamtzahl der Inhalte in } I}\]

Erklärung:

Die Popularität eines Inhalts ordnet alle Inhalte basierend auf der Anzahl ihrer Interaktionen in eine Rangfolge ein. Beispiel mit 100 Inhalten: Der Inhalt mit den meisten Interaktionen erhält eine Popularität von 1. Der zweitbeliebteste Inhalt hat eine Popularität von 0.99, der dritte 0.98 usw.:

Position 1 2 3 4 5 6 7 8 9 10 ...
Kehrwert 1.00 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 ...
Interpretation:

Hoher Popularitätswert (nahe 1) → Der Inhalt hat viele Interaktionen erhalten. Niedriger Popularitätswert (nahe 0) → Der Inhalt hat bisher nur wenige Interaktionen.

Limitierungen:
  • Inhalte mit sehr ähnlicher Interaktionszahl können ähnliche Popularitätswerte haben, wodurch sich Unterschiede in der Beliebtheit manchmal nur schwer ablesen lassen.
  • Neue Inhalte starten mit einem niedrigen Wert, unabhängig von ihrem Potenzial oder zukünftigen Erfolg.

Neuheit identifiziert Inhalte mit bisher geringer Sichtbarkeit:

Berechnung:

Für einen Inhalt \(𝒊\) aus der Gesamtmenge \(𝑰\) aller Inhalte berechnen wir Neuheit wie folgt:

\[ \text{Neuheit}(i) = 1 - \frac{\text{Sichtbarkeit}(i)}{\sum_{i' \in I} \text{Sichtbarkeit}(i')}\]

Dabei misst Sichtbarkeit, wie oft ein empfohlener Inhalt gesehen wurde – unabhängig davon, ob eine Interaktion stattfand.

Erklärung:

Die Neuheit eines Inhalts ist der reverse Anteil seiner Sichtbarkeit an der gesamten Sichtbarkeit.

Interpretation:
  • Hoher Neuheits-Wert (nahe 1) → Der Inhalt wurde bisher selten empfohlen.
  • Niedriger Neuheits-Wert (nahe 0) → Der Inhalt wurde schon häufig empfohlen.
Limitierungen:
  • Die Metrik sagt nichts über die Relevanz des Inhalts aus.
  • In dynamischen Systemen kann die Neuheit schnell schwanken, insbesondere wenn ein zuvor wenig empfohlener Inhalt plötzlich häufiger angezeigt wird.

Serendipität misst, ob Nutzer:innen unerwartet relevante Inhalte entdecken. Zur Messung verweisen wir auf die Definition der Diversität zwischen zwei Inhalten im nächsten Abschnitt. Der entscheidende Unterschied: Während Diversität den Abstand zwischen zwei Inhalten bewertet, betrachtet die Serendipität eines Inhalts dessen Diversität im Vergleich zur bisherigen Nutzungshistorie der Nutzer:innen.

Popularität, Neuheit und Serendipität helfen uns, sowohl Verzerrungen im Sinne des öffentlich-rechtlichen Auftrags zu minimieren als auch gleichzeitig die Wirksamkeit unserer Empfehlungen zu erhöhen. Unsere Erkenntnisse zu diesem spannenden Zusammenspiel fließen sowohl in die Weiterentwicklung unseres Systems als auch in die wissenschaftliche Diskussion ein – unter anderem auf Fachkonferenzen wie der renommierten RecSys.

Ausgewogenheit und Vielfalt

Der öffentlich-rechtliche Auftrag verpflichtet uns zur Berücksichtigung von Meinungsvielfalt und Ausgewogenheit. Dies setzen wir mithilfe der Berücksichtigung von Diversität um. Zur Berechnung von Diversität nutzen wir bewährte Zuordnungen, um jedem Inhalt einen Platz in einem multidimensionalen Raum zuzuweisen. Dann berechnen wir für jede Empfehlungsliste die Abstände zwischen den empfohlenen Inhalten.

Diversität

Berechnung:

Notation:

  • \(i \in J\): Inhalt \(i\) in der Gesamtmenge an empfohlenen Inhalten.
  • \(v_i\): Embedding-Vektor des Inhalts \(i\).
  • \(s\): Schrumpffaktor.
    Formel:

    \[ \text{Diversität}(i, i') = 1 - \frac{v_i \cdot v_{i'}}{\|v_i\| \|v_{i'}\| + s}\]

Erklärung:

Die Diversität misst den inhaltlichen Abstand zwischen zwei empfohlenen Inhalten. Sie basiert auf der Ähnlichkeit ihrer Embedding-Vektoren. Der Schrumpffaktor s dient dazu, numerische Instabilitäten zu reduzieren.

Interpretation:
  • Hoher Diversitäts-Wert (nahe 1) → Die Inhalte unterscheiden sich stark.
  • Niedriger MRR-Wert (nahe 0) → Die Inhalte sind sich sehr ähnlich.
Limitierungen:
  • Anwendbarkeit: Die Metrik funktioniert nur, wenn aussagekräftige Metadaten oder Embeddings für die Inhalte verfügbar sind.
  • Mögliche Verzerrungen: Die Wahl der Embedding-Methode, die Gewichtung von Unterschieden und die Auswahl der Distanzmetrik können das Ergebnis beeinflussen.

Der Trade-off zwischen Diversität und Wirksamkeit ist ein weiteres spannendes Thema, das transparent und fortlaufend diskutiert und optimiert werden muss.

Zusammenfassung und Ausblick

  • Der MRR hilft uns, die Wirksamkeit des Empfehlungssystems zu bewerten.
  • Popularität, Neuheit und Serendipität minimieren Verzerrungen.
  • Diversität trägt zu Meinungsvielfalt und Ausgewogenheit bei.

Mithilfe dieser Kennzahlen stellen wir sicher, dass unser Empfehlungssystem nicht nur wirksam, sondern auch im Sinne des öffentlich-rechtlichen Auftrags arbeitet. Bei der konkreten Auswertung müssen natürlich verschiedene Aggregationsebenen, zeitliche Muster, Inhaltsgruppen und Nutzer:innengruppen berücksichtigt werden. Unser Ziel bleibt eine transparente, datenbasierte und nutzer:innenzentrierte Weiterentwicklung.

Wir bleiben dran – für ein Empfehlungssystem, das den öffentlich-rechtlichen Auftrag bestmöglich erfüllt!