Diversity oder auch Vielfalt ist eine Public Value Metrik.
Diversity im Kontext von Empfehlungssystemen beschreibt wie (un-)ähnlich verschiedene Elemente einer Gruppe von Empfehlungen sind. Nimmt man Rubriken als Beispiel, wäre eine Empfehlungsliste mit Serien und Filmen diverser, als eine mit nur Dokus.
Wir interessieren uns für die Diversity \(div@k^T\), die mittlere paarweise Ungleichheit der Empfehlungslisten \(R\) mit \(k\) Elementen, welche vom Empfehlungssystem allen Nutzer:innen \(u\) über einen bestimmten Zeitraum \(T\) empfohlen werden. Dafür wird zuerst die Diversity \(div_u@k\) für jeden Nutzer \(u\) nach einer Empfehlung mit \(k\) vorgeschlagenen Elementen wie folgt bestimmt:
\[
\begin{align}
div_{u@k} & = 1-\left( \frac{1}{k\cdot(k-1)}\right) \sum_{i\neq j \in R } sim(i,j) \\[6pt]
sim(i,j) & =
\left\{
\begin{aligned}
1\hspace{0.5cm} &\text{i, j aus gleicher Kategorie}\\
0\hspace{0.5cm} &\text{sonst}
\end{aligned}
\right.
\end{align}\]
Eine Kategorisierung nach Ähnlichkeit wird durch die Funktion \(sim(i,j)\) implementiert. Diese beträgt \(sim(i,j) = 0\), wenn die empfohlenen Elemente \(i\) und \(j\) aus verschiedenen Kategorien stammen. Hier wird die Rubrik innerhalb der ZDFmediathek des Elementes als Kategorie für Ähnlichkeit angenommen. Falls beide Elemente aus derselben Kategorie stammen, beträgt \(sim(i,j) = 1\). Im folgenden Schritt werden die Ergebnisse aus der obigen Formel über alle Nutzer \(u\) und einen Zeitraum \(T\) gemittelt und somit die Diversity \(div@k^T\) bestimmt.
Ein anschauliches Beispiel zur Berechnung von \(div@k^T\) ist in der nachfolgenden Grafik dargestellt. Zwei Nutzer:innen werden jeweils drei Inhalte empfohlen. Der ersten Nutzerin (\(u=1\)) empfiehlt das System drei Elemente (\(k=3\)) aus verschiedenen Rubriken, womit ihre persönliche \(div_1@3 = 1\) wäre. Dem Nutzer zwei (\(u=2\)) empfiehlt der Algorithmus zwei Elemente aus der gleichen Rubrik und ein weiteres Element aus einer anderen. Damit wäre seine persönliche Diversity nach obiger Formel \(div_2@3 = 2/3\). Angenommen die beiden Empfehlungslisten wurden im selben Zeitintervall \(T\) erstellt, ergibt sich für die mittlere paarweise Ungleichheit ein Wert von \(div@3^T=5/6\).