Public Value Blog

Hier findest du kurze Analysen zu Verhaltensweisen und dem Zusammenspiel zwischen den Public Value Metriken und den verschiedenen Anwendungsfällen in der ZDFmediathek. Alle Analysen, die wir hier präsentieren, verwenden wir auch selbst, um unsere Algorithmen zu verbessern.


Neuer Algorithmus für „Das könnte Dich interessieren“


23.01.2024

Wir optimieren und entwickeln unsere Algorithmen und Modelle ständig weiter, um bestmögliche Empfehlungen zu generieren. Im Empfehlungs-Band „Das könnte Dich interessieren“ (DKDI) wird derzeit das sogenannte Sequential Model (SEQ) für Empfehlungen verwendet. Dieses basiert auf Recurrent Neural Networks (RNN), nachzulesen in der technischen Beschreibung unter „ModelCard“. Zusätzlich wird Popularity Sampling eingesetzt, um Inhalte auch abseits von Trends zu empfehlen.

Um sowohl die Nutzererfahrung, als auch die beiden wichtigsten Leistungsmetriken Klicks und Sehvolumen zu verbessern, haben wir einen Empfehlungsalgorithmus basierend auf dem sogenannten „Self-Attention Based Sequential Recommendation Model“ (SASRec) für DKDI entwickelt. Wie dieser funktionier ist unter der „ModelCard“ beschrieben. Die Grundlagen und Details zum Basis-Algorithmus sind im folgendem Artikel zu finden.

Um das neue Modell zu testen, haben wir es in Bezug auf die Leistungsmetriken mit dem momentan eingesetzten Algorithmus verglichen. Im Folgenden werden die Unterschiede zwischen dem neuen SASRec Modell und dem bestehenden SEQ mit Popularity Sampling für DKDI dargestellt.


Die wichtigsten Ergebnisse im Überblick:

  • SASRec zeigt eine Steigerung der KPI‘s für Klicks und Sehvolumen gegenüber SEQ mit Popularity Sampling.
  • SASRec zeigt eine höhere Popularity der empfohlenen Inhalte als SEQ mit Popularity Sampling.

In einem weiteren Schritt haben wir den SASRec Algorithmus durch Popularity Sampling erweitert. Im Anschluss wurden alle drei Modelle miteinander verglichen: SEQ mit Popularity Sampling, SASRec und SASRec erweitert durch Popularity Sampling. Im Folgenden werden die Unterschiede zwischen allen drei Modellen für den Anwendungsfall DKDI gezeigt.


Aus den Darstellungen lässt sich ableiten, dass

  • der SASRec Algorithmus mit der Erweiterung durch Popularity Sampling weniger beliebte Inhalte empfiehlt, als die beiden anderen Modelle (niedrigere Popularity).
  • die Modifizierung von SASRec mit Popularity Sampling mit geringeren Werten für Klicks und Sehvolumen einhergeht.

Aufgrund der unerwartet starken Abnahme bei den Leistungsmetriken durch die Erweiterung von SASRec mit dem Popularity Sampling wird diese Modifizierung nicht bei „Das könnte Dich interessieren“ angewandt, sondern das Grundmodell von SASRec verwendet.


ZDF veröffentlicht Quellcodes seines Empfehlungssystems


04.01.2024

Das ZDF hat zentrale Teile des Quellcodes seines Empfehlungssystems in der ZDFmediathek auf GitHub veröffentlicht. So geht das ZDF einen weiteren Schritt, um Algorithmen transparent weiterzuentwickeln. Damit will der Sender die Entwicklung innovativer Medientechnologien fördern und unterstützen.

Andreas Grün, Leiter der Abteilung Technologie Digitale Medien im ZDF: "Wir ermuntern alle, Expertinnen und Experten, NGOs und andere Medienunternehmen, den Quellcode einzusehen und uns Verbesserungsvorschläge zukommen zu lassen. Wir sind überzeugt davon, dass dies ein wichtiger Punkt für mehr Offenheit ist und zur Weiterentwicklung der Medientechnologie beitragen wird. "

Der Quellcode ist unter diesem Link abrufbar:
https://github.com/zdf-opensource/recommendations-pa-base


Erweiterung gemeinsame Empfehlungen ZDF & ARD


16.10.23

Im Rahmen des gemeinsamen Streaming-Netzwerks zwischen ARD und ZDF ist es bereits seit März möglich innerhalb der ZDF-Mediathek ARD-Inhalte zu schauen. In unserem „Auch Interessant“ Anwendungsfall spielen wir seitdem gemischte Empfehlungen aus ZDF- und ARD-Inhalten in den Bereichen Dokumentation und Kultur aus.

Seit Anfang Oktober wurde das Streaming-Netzwerk im Anwendungsfall „Auch Interessant“ auf weitere Rubriken erweitert. Nun umfassen gemeinsame Empfehlungen von ZDF- und ARD-Inhalten neben Kultur und Dokumentationen, auch die Bereiche Filme, Serien, Kinder und eine gemischte Rubrik mit Inhalten zu Themen aus der Gesellschaft, Comedy und Show. Damit ist nun unter den meisten Videos ein „Auch Interessant“ Empfehlungsband, was sich direkt in einem starken Anstieg des Sehvolumens widerspiegelt:


Die Public Value Metriken für die „Auch Interessant“ Empfehlungen variieren sehr stark, je nachdem welche Rubriken angezeigt werden. Im Vergleich zu den anderen Anwendungsfällen wie „Weil Du“ oder „Next-Video“ sind die Serendipity-Werte sehr hoch, insbesondere für die gemischten Empfehlungen bei Gesellschaft, Comedy und Show. Die Einführung der weiteren Rubriken hat auch dazu geführt, dass die Serendipity-Werte für andere bestehenden Anwendungsfälle im Durchschnitt etwas gefallen sind. Dies spricht dafür, dass die „Auch Interessant“ Empfehlungen auf den einzelnen Beitragsseiten die Neugier und Interesse der Nutzenden wecken, neue Rubriken anzuschauen und insgesamt zu einem vielfältigeren Sehverhalten führen.


Änderung des Metadatenkatalogs


21.08.23

Die ZDFmediathek wird ständig weiterentwickelt. Vor allem seit dem Zusammenschluss der ZDF- und ARD-Mediatheken zum Streaming-Netzwerk sind interne Anpassungen manchmal unvermeidbar. Eine Neufassung der Kategorien (Rubriken) innerhalb der ZDFmediathek hat sichtbare Auswirkungen auf betroffene Metriken, vor allem die Diversity und die Serendipity. Erstere ist nur für den Anwendungsfall „Das Könnte Dich Interessieren“ relevant und die Änderung der Metrik vernachlässigbar. Im Folgenden wird diese Änderung an der Metrik Serendipity diskutiert, welche per Definition von den Kategorisierung der Rubriken abhängig ist.


Durch Änderungen am Metadatenkatalog der ZDFmediathek wurden die derzeitigen Kategorien wie Serie, Kultur oder Film überarbeitet. Dies führte zu einem Anstieg der Serendipity (in rosa dargestellt) am Tag der Umstellung (09.08.2023) und einem darauf folgenden Einpendeln (türkis). Die Ergebnisse zeigen im Detail:

  • Die meisten Anwendungsfälle weisen eine kurze und starke Schwankungen auf, um sich dann etwa auf dem altem Niveau einzupendeln. Der Grund für den Ausschlag liegt an neuen Kategorien, die anfangs die Serendipity erhöhen, da sie vor ihrer Implementierung nicht in den Nutzungshistorien vorhanden waren. Zum Teil höhere Basiswerte nach der Umstellung spiegeln eine nun größere Anzahl der Kategorien wieder, was sich direkt positiv auf die genutzte Kategorienvielfalt (Serendipity) auswirkt.
  • Der Anwendungsfall „Auch Interessant“ ist kaum betroffen, da hier jeweils nur eine Kategorie (Doku, Kultur) empfohlen wird.

Welche Kategorien sich geändert haben und welche weitere Auswirkungen dies auf die Empfehlungen innerhalb der ZDFmediathek hat, zeigen wir euch im nächsten Blog-Eintrag.


Updates: Anwendungsfälle und Automatisierung


04.07.23

Folgende Neuerungen am Empfehlungssystem der ZDFmediathek wurden umgesetzt:

  • Popularity Debiasing: Im März haben wir in einem Blog-Eintrag die Vorteile einer Gewichtung von Inhalten mit Hilfe der Popularity diskutiert, um die Benachteiligung weniger beliebter Inhalte in Empfehlungen zu reduzieren. Ausführliche Tests haben gezeigt, dass diese Methode unsere Empfehlungen signifikant verbessert. Deshalb wird das „Sequential Modell“ durch das Popularity Debiasing erweitert. Im folgenden wird der Unterschied zwischen den Modellen mit und ohne Popularity Sampling anhand von „Next-Video“ gezeigt:


    A/B-Tests zeigen ein konstantes Sehvolumen, während die Popularity der empfohlenen Inhalte sinkt. Damit erfüllt die Erweiterung des „Sequential Modell“ durch das Popularity Sampling seinen Zweck und wird daher überall dort implementiert, wo zuvor das „Sequential Modell“ eingesetzt wurde. Weitere Details zum Popularity Sampling sind im dazugehörigen Blog-Eintrag zu finden. Diese Änderung betrifft hauptsächlich die Anwendungsfälle: „DKDI“, „Next-Video“ und „Auch-Interessant“.

  • Coverage: Die Berechnung der Public Value Metrik Coverage für die Anwendungsfälle „Auch Interessant“, „Next Video“ und „Weil Du“ wurde angepasst. Zukünftig zeigt diese bei Vergleichen mit anderen Anwendungsfällen nur nicht-automatisierte Empfehlungen, wie z.B. reguläre Empfehlungen bei „Next Video“ (Ausschluss: Nest-Episode) oder Empfehlungen im Rahmen des Streaming-Netzwerks mit der ARD durch „Auch Interessant“ (Ausschluss: Weitere Folgen). Bei „Weil Du“ wurden technische Details der Berechnung angepasst. Durch diese Umstellung sind aktualisierte Daten zu dieser Metrik für die Anwendungsfälle „Auch Interessant“ und „Weil Du“ nur ab der letzten Juni-Woche vorhanden.
  • Automatisierung: Bis Juni 2023 haben wir Analysen und Grafiken auf dieser Seite per Hand aufbereitet und eingepflegt. Zur Steigerung der Effizienz wurde beschlossen, dass die Datenpräsentation auf algorithmen.zdf.de automatisiert werden soll. Ab dem 1. Juli zeigen die Grafiken auf dieser Seite automatisch die aktuellen Metriken. Im Moment werden die Daten jeweils montags aktualisiert.


Gemeinsame Empfehlungen ZDF & ARD und andere Updates


02.05.23

Wir haben wieder einige Updates für euch vorbereitet. Neben der angekündigten Analyse zu „Auch Interessant“, ist die größte Neuerung die gemeinsamen Empfehlungen von ZDF- und ARD-Inhalten innerhalb der ZDFmediathek durch den neuen Anwendungsfall „Auch Interessant“ für Dokus. Neuerungen gibt es vor allem in diesen Bereichen:

  • Gemeinsame Empfehlungen von ZDF- & ARD-Inhalten: Als erster Anwendungsfall empfiehlt „Auch Interessant“ Inhalte aus beiden Mediatheken. Im Moment wird dieser Algorithmus nur im Bereich www.zdf.de/dokumentation eingesetzt. Bald kommt noch der Bereich Kultur hinzu.
  • Analyse des Anwendungsfalls „Auch Interessant“: Wie versprochen haben wir die Analyse nachgeliefert, welche unter „Auch Interessant“ zu finden ist. Zusätzlich zu den schon zuvor bekannten Metriken haben wir hier Klicks als Performance Metrik und die Popularity als Public Value Metrik eingefügt.
  • Wir haben die Auswertung zur Coverage überarbeitet. Dabei haben wir die Berechnung der Coverage korrigiert, die in der Vergangenheit manchmal die Anzahl der möglichen zu empfehlenden Inhalte zu niedrig angesetzt hat. Durch diese Korrektur kann die berechnete Coverage in Zukunft etwas geringer ausfallen.


„Popularity Debiasing“ – Warum es sinnvoll ist, beliebte Inhalte seltener zu empfehlen


06.03.23

Algorithmen, die anhand von Nutzungsdaten trainiert werden (das gilt für die meisten Anwendungsfälle der ZDFmediathek) lernen vor allem die auffälligsten Merkmale dieser Datensätze. Ein Beispiel dafür ist die Popularity / Beliebtheit von Inhalten: Wenige Inhalte bekommen verhältnismäßig viel Aufmerksamkeit. Beispielsweise machte am 25. Februar 2023 die heute-show allein mehr als 6 Prozent aller Sichtungen der gesamten ZDFmediathek aus. Schauen sich viele Nutzer:innen denselben Inhalt an, lernt der Algorithmus, dass dieser Inhalt sehr beliebt ist und empfiehlt ihn deshalb häufiger als andere, weniger beliebte Inhalte. Dieses Verhalten des Modells nennt man „Popularity Bias“. Der öffentliche Auftrag des ZDF steht allerdings im Widerspruch dazu, nur beliebte Inhalte zu empfehlen. Wenn weniger genutzte Inhalte besonders gut zu den Interessen einer Nutzer:in passen, sollten diese auch vorgeschlagen werden. 

Wir haben den Empfehlungsalgorithmus für „Das könnte Dich interessieren“ so angepasst, dass er die Beliebtheit der Inhalte im Training berücksichtigt. Durch eine veränderte Gewichtung lernt der Algorithmus besser zu unterscheiden, welche Inhalte sehr populär sind oder tatsächlich gut zu den Interessen einer Nutzer:in passen.

Um zu überprüfen, ob durch diese Anpassung tatsächlich ein „Popularity Debiasing“ stattfindet, also beliebte Inhalte seltener vorgeschlagen werden, testen wir den angepassten Algorithmus in einem A/B-Test. Die Nutzer:innen werden dafür zufällig in zwei Gruppen aufgeteilt. Eine Gruppe (A) bekommt nun bei „Das könnte Dich interessieren“ Empfehlungen mit dem bisherigen Algorithmus, die andere (C) mit dem angepassten Algorithmus. Die Metrik Popularity misst die Beliebtheit eines Beitrages, indem alle Inhalte bezüglich ihrer Anzahl an Sichtungen geordnet werden. Zur besseren Vergleichbarkeit messen wir die durchschnittliche Popularity des jeweils ersten Beitrags im Empfehlungsband. Mit der Metrik Novelty messen wir, ob der Algorithmus im ganzen Band auch weniger genutzte Inhalte ausspielt. Um festzustellen, ob der Algorithmus weiterhin gut bei den Nutzer:innen ankommt, messen wir auch das durch die Nutzung der Empfehlungen erzeugte Sehvolumen.


Die Ergebnisse zeigen:

  • Populäre Inhalte werden weniger empfohlen. Um den Unterschied des Popularity Werts im Graphen in Relation zu Setzen schauen wir nochmal zusätzlich das Beispiel der heute-show an: Diese wurde mit Debiasing ca. 20% weniger empfohlen.
  • Das Sehvolumen hat sich verbessert. Mittelt man das Sehvolumen und vergleicht den relativen Unterschied der beiden Gruppen, sieht man in der Debiasing Gruppe eine Verbesserung von mehr als 20%.

Dies spricht dafür, dass durch das Popularity Debiasing Inhalte empfohlen werden, die besser zu den persönlichen Interessen der Nutzer:innen passen. 


Danke für Euer Feedback!


15.11.22

Seit dem Start von algorithmen.zdf.de haben wir vielfältige Rückmeldungen zu diversen Themen von Euch erhalten. Wir möchten uns an dieser Stelle zuerst einmal bedanken: Für Euer Interesse, für die Nutzung dieses Angebotes und natürlich und vor allem für die konstruktive Kritik! Hier findet Ihr die Antworten auf die wichtigsten Fragen:

  • Aktualität: Wir planen, etwa alle 2 bis 4 Wochen ein Update auszuspielen. Dieses kann entweder aus zusätzlichen Inhalten zu bestehenden Themen, einem neuen Anwendungsfall, oder auch einem Eintrag im Public Value Blog, so wie diesem hier, bestehen. Die gezeigten Daten in den Anwendungsfällen, z.B. in Metriken, werden monatlich aktualisiert.
  • Algorithmen: Einige von Euch haben gefragt, ob man algorithmische Empfehlungen auch ausschalten kann. Die Antwort lautet: Jein. Hinter jedem Automatismus steckt ein Algorithmus, sei es das Suchergebnis oder die Sortierung von Inhalten nach Datum und Nutzung. Diese automatisierten Empfehlungen basieren nicht auf persönlichen Daten und können nicht abgestellt werden. Ausschalten lassen sich aber Empfehlungen, die auf persönlichen Daten beruhen. Hierfür genügt es, der Datenerhebung beim erstmaligen Öffnen der Webseite zu widersprechen oder sie unter "Mein ZDF" zu deaktivieren. Übrigens: Die Suche findet alle Inhalte, ohne dabei persönliche Daten zu verwenden.
  • Ausblick: Wir möchten uns im Dezember neben einem Daten-Update bestehender Inhalte auch mit einem neuen Anwendungsfall bei Euch melden. Wir stellen Euch die „Next-Video“ Funktion vor, die viele von Euch sicher schon bemerkt haben, z.B. beim Streamen von Serien. Weiterhin versuchen wir ständig bestehende Inhalte und die Darstellung zu verbessern und neue Themen zu identifizieren, die wir Euch im Blog vorstellen können.

Unter algorithmen@zdf.de freuen wir uns über jedes weitere Feedback von Euch!


„Das könnte Dich interessieren“ - Update des Empfehlungs-System


07.09.22

Zur besseren Skalierbarkeit und Reduktion von Fehlerquellen, soll eine Änderung in Bezug auf das Modell-Training des „Das könnte Dich interessieren“" Anwendungsfalls durchgeführt werden. Im Detail geht es darum den Trainingsschritt des Empfehlungssystems nicht mehr lokal, sondern in der Cloud durchzuführen. Dafür wurde die A/B-Gruppe E am 21.07.2022 dementsprechend modifiziert und soll nun mit den anderen A/B-Gruppen, die unter der alten Einstellung laufen, verglichen werden. An der Empfehlungslogik sind keine Änderungen vorgesehen.

Die Performance kann auf verschiedene Art und Weise getestet werden. Einerseits kann man Leistungsmetriken messen, z.B. Sehvolumen oder die Klickrate. Andererseits sind wir auch an möglichen inhaltlichen Änderungen interessiert, die mit Hilfe der Public Value Metriken analysiert werden können. Im Folgenden wird die Änderung der A/B-Gruppe E in Bezug auf die vier Public Value Metriken dargestellt und mit den anderen Gruppen verglichen, um etwaige Unterschiede zu erkennen.


Alle vier Public Value Metriken zeigen für A/B-Gruppe E nach dem Update das gleiche Verhalten, wie vor der Änderung. Die Verläufe sind innerhalb der Messunsicherheit (hier nur für Gruppe E als rotes Band gezeigt; für andere Gruppen ähnlich) identisch. Eine geringe, aber sichtbare Auswirkung hat die Änderung in Bezug auf die Aktualität des Models, weil das in der Cloud trainierte Model sofort zum Einsatz kommt, während das lokale Training nur zu bestimmten Zeitpunkten aktualisiert wurde. Dies zeigt sich durch eine höhere Stabilität und weniger temporale Effekte, z.B. im Vergleich der Coverage oder auch der Serendipity.


„Das könnte Dich interessieren“ - Diversity


27.08.22

„Das könnte Dich interessieren" soll dem Nutzer vielfältige Empfehlungen machen. Unser Anspruch ist es das Nutzerinteresse zu identifizieren und thematisch passende Empfehlungen aus möglichst vielen Rubriken zu erstellen. Um zu testen, wie gut der eingesetzte Algorithmus diesem Anspruch genügt, bietet sich die Public Value Metrik Diversity an. Die Metrik basiert auf Rubriken der ZDFmediathek, wie z.B. Serie, Dokumentation oder Film.

Die folgende Abbildung zeigt die gemessene Diversity für einen Zeitraum von einem Monat. Dabei wird sowohl über einzelne Nutzer, als auch über einen Tag gemittelt und als Ergebnis die mittlere Vielfalt des Anwendungsfalls DKDI im zeitlichen Verlauf über 30 Tage dargestellt.


Im Mittel liegt die Diversity von DKDI bei einem verhältnismäßig hohen Wert von 0,6. Dies bedeutet, dass verglichen mit dem zuvor angesehene Video, mehr als die Hälfte aller Empfehlungen nach einer Anfrage jeweils unterschiedliche Rubriken aufweisen (nach einer Anfrage werden insgesamt 25 Empfehlungen im Band DKDI zurückgegeben).

Korrelation zwischen Diversity und Sehvolumen

Unser Anspruch ist es den Nutzern sowohl ansprechenden als auch vielfältigen Inhalt zu bieten und dadurch langfristig die Nutzerzufriedenheit und -bindung zu erhöhen. Doch wie lässt sich testen, ob das Empfehlungssystem auch das tut, was wir verlangen? Eine Antwort darauf liefert die Korrelation zwischen Sehvolumen und Diversity. Anhand dieser können wir erkennen, ob die Nutzerzufriedenheit in Form von steigendem Sehvolumen mit einer niedrigen oder höheren Diversity einhergeht. Die folgende Abbildung zeigt eine solche Korrelation für den Zeitraum vom 01. März bis zum 31. Juli 2022.


Die schwarze Linie zeigt die Tendenz der Abhängigkeit zwischen Diversity und Sehvolumen. Aus der Abbildung wird deutlich, dass eine positive Korrelation vorliegt. Weitere Untersuchungen sind geplant.