Hier findest du kurze Analysen zu Verhaltensweisen und dem Zusammenspiel zwischen den Public Value Metriken und den verschiedenen Anwendungsfällen in der ZDFmediathek. Alle Analysen, die wir hier präsentieren, verwenden wir auch selbst, um unsere Algorithmen zu verbessern.
In der ZDF-Mediathek verwenden wir derzeit das SASRec-Modell („Self-Attention Based Sequential Recommendation“), um personalisierte Empfehlungen zu erzeugen. SASRec wird genutzt für verschiedene Anwendungsfälle wie „Das könnte Dich interessieren“ (DKDI), „Next-Video” und „Weil Du ... geschaut hast”. Unter der Annahme, dass Nutzende verschiedener Geräte ein unterschiedliches Nutzungsverhalten in der Mediathek aufweisen, haben wir in der Vergangenheit für die drei Geräte-Kategorien TV, mobile Apps und Webbrowser jeweils ein separates Modell trainiert. Dabei wurden für das jeweilige Modell nur die Nutzungsdaten der entsprechenden Geräte verwendet. Für die drei separaten SASRec-Modelle waren insgesamt 18 Trainings pro Tag mit einer Gesamtlänge von ca. 14 Stunden erforderlich.
Um die Qualität der Empfehlungen zu verbessern und zusätzlich die Trainingsaufwände und damit verbunden Zeit, Kosten und Energieverbrauch zu reduzieren, haben wir unsere frühere Annahme in Frage gestellt und experimentell evaluiert, ob ein einziges gemeinsames SASRec-Modell, das die Daten aller Geräte nutzt, besser als die drei separaten Modelle performen kann. Das neue gemeinsame Modell wurde vorher mittels Tuning so verbessert, dass es zu möglichst guten Ergebnissen führen sollte. Das eine gemeinsame Modell kommt mit 6 Trainings pro Tag in einer Gesamtlänge von unter 8,5 Stunden aus.
Anschließend haben wir in einem Zeitraum von einem Monat einen A/B-Test durchgeführt, bei dem das eine gemeinsame Modell mit den drei separaten Modellen in den Anwendungsfällen DKDI und Next-Video verglichen wurde.
Die A/B-Testergebnisse zeigen, dass das gemeinsame Modell sowohl bei DKDI als auch bei Next-Video die drei separaten Modelle in den drei Leistungsmetriken “Klicks”, “Sehvolumen” und “Popularity” übertrifft. (Wichtig zum Verständnis: Wie aus dem letzten Blog-Artikel „Neuer Algorithmus für ‘Das könnte Dich interessieren’“ beschreibt, dass es wichtig ist, die Popularity zu senken, um nicht nur sehr populäre Inhalte zu empfehlen, sondern möglichst die, die für den jeweiligen Nutzenden am besten passen.)
Die wichtigsten Ergebnisse zusammengefasst:
Für beide Anwendungsfälle DKDI und das Next-Video wurde außerdem ein T-Test durchgeführt (um die Signifikanz zu prüfen). Anhand der Testergebnisse sehen wir, dass das gemeinsame Modell hinsichtlich aller Leistungsmetriken signifikant (mit p < 0,05) besser ist als die drei separaten Modelle.
Aus diesen Gründen haben wir uns dazu entschieden, das eine gemeinsame SASRec-Modell für die Anwendungsfälle DKDI, Next-Video und auch "Weil Du ...” zu verwenden und somit die Qualität der Empfehlungen zu verbessern und gleichzeitig die Trainingsaufwände und damit die Kosten und den Energieverbrauch zu reduzieren.
Wir optimieren und entwickeln unsere Algorithmen und Modelle ständig weiter, um bestmögliche Empfehlungen zu generieren. Im Empfehlungs-Band „Das könnte Dich interessieren“ (DKDI) wird derzeit das sogenannte Sequential Model (SEQ) für Empfehlungen verwendet. Dieses basiert auf Recurrent Neural Networks (RNN), nachzulesen in der technischen Beschreibung unter „ModelCard“. Zusätzlich wird Popularity Sampling eingesetzt, um Inhalte auch abseits von Trends zu empfehlen.
Um sowohl die Nutzererfahrung, als auch die beiden wichtigsten Leistungsmetriken Klicks und Sehvolumen zu verbessern, haben wir einen Empfehlungsalgorithmus basierend auf dem sogenannten „Self-Attention Based Sequential Recommendation Model“ (SASRec) für DKDI entwickelt. Wie dieser funktionier ist unter der „ModelCard“ beschrieben. Die Grundlagen und Details zum Basis-Algorithmus sind im folgendem Artikel zu finden.
Um das neue Modell zu testen, haben wir es in Bezug auf die Leistungsmetriken mit dem momentan eingesetzten Algorithmus verglichen. Im Folgenden werden die Unterschiede zwischen dem neuen SASRec Modell und dem bestehenden SEQ mit Popularity Sampling für DKDI dargestellt.
Die wichtigsten Ergebnisse im Überblick:
In einem weiteren Schritt haben wir den SASRec Algorithmus durch Popularity Sampling erweitert. Im Anschluss wurden alle drei Modelle miteinander verglichen: SEQ mit Popularity Sampling, SASRec und SASRec erweitert durch Popularity Sampling. Im Folgenden werden die Unterschiede zwischen allen drei Modellen für den Anwendungsfall DKDI gezeigt.
Aus den Darstellungen lässt sich ableiten, dass
Aufgrund der unerwartet starken Abnahme bei den Leistungsmetriken durch die Erweiterung von SASRec mit dem Popularity Sampling wird diese Modifizierung nicht bei „Das könnte Dich interessieren“ angewandt, sondern das Grundmodell von SASRec verwendet.
Das ZDF hat zentrale Teile des Quellcodes seines Empfehlungssystems in der ZDFmediathek auf GitHub veröffentlicht. So geht das ZDF einen weiteren Schritt, um Algorithmen transparent weiterzuentwickeln. Damit will der Sender die Entwicklung innovativer Medientechnologien fördern und unterstützen.
Andreas Grün, Leiter der Abteilung Technologie Digitale Medien im ZDF: "Wir ermuntern alle, Expertinnen und Experten, NGOs und andere Medienunternehmen, den Quellcode einzusehen und uns Verbesserungsvorschläge zukommen zu lassen. Wir sind überzeugt davon, dass dies ein wichtiger Punkt für mehr Offenheit ist und zur Weiterentwicklung der Medientechnologie beitragen wird. "
Der Quellcode ist unter diesem Link abrufbar:
https://github.com/zdf-opensource/recommendations-pa-base
Im Rahmen des gemeinsamen Streaming-Netzwerks zwischen ARD und ZDF ist es bereits seit März möglich innerhalb der ZDF-Mediathek ARD-Inhalte zu schauen. In unserem „Auch Interessant“ Anwendungsfall spielen wir seitdem gemischte Empfehlungen aus ZDF- und ARD-Inhalten in den Bereichen Dokumentation und Kultur aus.
Seit Anfang Oktober wurde das Streaming-Netzwerk im Anwendungsfall „Auch Interessant“ auf weitere Rubriken erweitert. Nun umfassen gemeinsame Empfehlungen von ZDF- und ARD-Inhalten neben Kultur und Dokumentationen, auch die Bereiche Filme, Serien, Kinder und eine gemischte Rubrik mit Inhalten zu Themen aus der Gesellschaft, Comedy und Show. Damit ist nun unter den meisten Videos ein „Auch Interessant“ Empfehlungsband, was sich direkt in einem starken Anstieg des Sehvolumens widerspiegelt:
Die Public Value Metriken für die „Auch Interessant“ Empfehlungen variieren sehr stark, je nachdem welche Rubriken angezeigt werden. Im Vergleich zu den anderen Anwendungsfällen wie „Weil Du“ oder „Next-Video“ sind die Serendipity-Werte sehr hoch, insbesondere für die gemischten Empfehlungen bei Gesellschaft, Comedy und Show. Die Einführung der weiteren Rubriken hat auch dazu geführt, dass die Serendipity-Werte für andere bestehenden Anwendungsfälle im Durchschnitt etwas gefallen sind. Dies spricht dafür, dass die „Auch Interessant“ Empfehlungen auf den einzelnen Beitragsseiten die Neugier und Interesse der Nutzenden wecken, neue Rubriken anzuschauen und insgesamt zu einem vielfältigeren Sehverhalten führen.
Die ZDFmediathek wird ständig weiterentwickelt. Vor allem seit dem Zusammenschluss der ZDF- und ARD-Mediatheken zum Streaming-Netzwerk sind interne Anpassungen manchmal unvermeidbar. Eine Neufassung der Kategorien (Rubriken) innerhalb der ZDFmediathek hat sichtbare Auswirkungen auf betroffene Metriken, vor allem die Diversity und die Serendipity. Erstere ist nur für den Anwendungsfall „Das Könnte Dich Interessieren“ relevant und die Änderung der Metrik vernachlässigbar. Im Folgenden wird diese Änderung an der Metrik Serendipity diskutiert, welche per Definition von den Kategorisierung der Rubriken abhängig ist.
Durch Änderungen am Metadatenkatalog der ZDFmediathek wurden die derzeitigen Kategorien wie Serie, Kultur oder Film überarbeitet. Dies führte zu einem Anstieg der Serendipity (in rosa dargestellt) am Tag der Umstellung (09.08.2023) und einem darauf folgenden Einpendeln (türkis). Die Ergebnisse zeigen im Detail:
Welche Kategorien sich geändert haben und welche weitere Auswirkungen dies auf die Empfehlungen innerhalb der ZDFmediathek hat, zeigen wir euch im nächsten Blog-Eintrag.
Folgende Neuerungen am Empfehlungssystem der ZDFmediathek wurden umgesetzt:
A/B-Tests zeigen ein konstantes Sehvolumen, während die Popularity der empfohlenen Inhalte sinkt. Damit erfüllt die Erweiterung des „Sequential Modell“ durch das Popularity Sampling seinen Zweck und wird daher überall dort implementiert, wo zuvor das „Sequential Modell“ eingesetzt wurde. Weitere Details zum Popularity Sampling sind im dazugehörigen Blog-Eintrag zu finden. Diese Änderung betrifft hauptsächlich die Anwendungsfälle: „DKDI“, „Next-Video“ und „Auch-Interessant“.
Wir haben wieder einige Updates für euch vorbereitet. Neben der angekündigten Analyse zu „Auch Interessant“, ist die größte Neuerung die gemeinsamen Empfehlungen von ZDF- und ARD-Inhalten innerhalb der ZDFmediathek durch den neuen Anwendungsfall „Auch Interessant“ für Dokus. Neuerungen gibt es vor allem in diesen Bereichen:
Algorithmen, die anhand von Nutzungsdaten trainiert werden (das gilt für die meisten Anwendungsfälle der ZDFmediathek) lernen vor allem die auffälligsten Merkmale dieser Datensätze. Ein Beispiel dafür ist die Popularity / Beliebtheit von Inhalten: Wenige Inhalte bekommen verhältnismäßig viel Aufmerksamkeit. Beispielsweise machte am 25. Februar 2023 die heute-show allein mehr als 6 Prozent aller Sichtungen der gesamten ZDFmediathek aus. Schauen sich viele Nutzer:innen denselben Inhalt an, lernt der Algorithmus, dass dieser Inhalt sehr beliebt ist und empfiehlt ihn deshalb häufiger als andere, weniger beliebte Inhalte. Dieses Verhalten des Modells nennt man „Popularity Bias“. Der öffentliche Auftrag des ZDF steht allerdings im Widerspruch dazu, nur beliebte Inhalte zu empfehlen. Wenn weniger genutzte Inhalte besonders gut zu den Interessen einer Nutzer:in passen, sollten diese auch vorgeschlagen werden.
Wir haben den Empfehlungsalgorithmus für „Das könnte Dich interessieren“ so angepasst, dass er die Beliebtheit der Inhalte im Training berücksichtigt. Durch eine veränderte Gewichtung lernt der Algorithmus besser zu unterscheiden, welche Inhalte sehr populär sind oder tatsächlich gut zu den Interessen einer Nutzer:in passen.
Um zu überprüfen, ob durch diese Anpassung tatsächlich ein „Popularity Debiasing“ stattfindet, also beliebte Inhalte seltener vorgeschlagen werden, testen wir den angepassten Algorithmus in einem A/B-Test. Die Nutzer:innen werden dafür zufällig in zwei Gruppen aufgeteilt. Eine Gruppe (A) bekommt nun bei „Das könnte Dich interessieren“ Empfehlungen mit dem bisherigen Algorithmus, die andere (C) mit dem angepassten Algorithmus. Die Metrik Popularity misst die Beliebtheit eines Beitrages, indem alle Inhalte bezüglich ihrer Anzahl an Sichtungen geordnet werden. Zur besseren Vergleichbarkeit messen wir die durchschnittliche Popularity des jeweils ersten Beitrags im Empfehlungsband. Mit der Metrik Novelty messen wir, ob der Algorithmus im ganzen Band auch weniger genutzte Inhalte ausspielt. Um festzustellen, ob der Algorithmus weiterhin gut bei den Nutzer:innen ankommt, messen wir auch das durch die Nutzung der Empfehlungen erzeugte Sehvolumen.
Die Ergebnisse zeigen:
Dies spricht dafür, dass durch das Popularity Debiasing Inhalte empfohlen werden, die besser zu den persönlichen Interessen der Nutzer:innen passen.
Seit dem Start von algorithmen.zdf.de haben wir vielfältige Rückmeldungen zu diversen Themen von Euch erhalten. Wir möchten uns an dieser Stelle zuerst einmal bedanken: Für Euer Interesse, für die Nutzung dieses Angebotes und natürlich und vor allem für die konstruktive Kritik! Hier findet Ihr die Antworten auf die wichtigsten Fragen:
Unter algorithmen@zdf.de freuen wir uns über jedes weitere Feedback von Euch!
Zur besseren Skalierbarkeit und Reduktion von Fehlerquellen, soll eine Änderung in Bezug auf das Modell-Training des „Das könnte Dich interessieren“" Anwendungsfalls durchgeführt werden. Im Detail geht es darum den Trainingsschritt des Empfehlungssystems nicht mehr lokal, sondern in der Cloud durchzuführen. Dafür wurde die A/B-Gruppe E am 21.07.2022 dementsprechend modifiziert und soll nun mit den anderen A/B-Gruppen, die unter der alten Einstellung laufen, verglichen werden. An der Empfehlungslogik sind keine Änderungen vorgesehen.
Die Performance kann auf verschiedene Art und Weise getestet werden. Einerseits kann man Leistungsmetriken messen, z.B. Sehvolumen oder die Klickrate. Andererseits sind wir auch an möglichen inhaltlichen Änderungen interessiert, die mit Hilfe der Public Value Metriken analysiert werden können. Im Folgenden wird die Änderung der A/B-Gruppe E in Bezug auf die vier Public Value Metriken dargestellt und mit den anderen Gruppen verglichen, um etwaige Unterschiede zu erkennen.
Alle vier Public Value Metriken zeigen für A/B-Gruppe E nach dem Update das gleiche Verhalten, wie vor der Änderung. Die Verläufe sind innerhalb der Messunsicherheit (hier nur für Gruppe E als rotes Band gezeigt; für andere Gruppen ähnlich) identisch. Eine geringe, aber sichtbare Auswirkung hat die Änderung in Bezug auf die Aktualität des Models, weil das in der Cloud trainierte Model sofort zum Einsatz kommt, während das lokale Training nur zu bestimmten Zeitpunkten aktualisiert wurde. Dies zeigt sich durch eine höhere Stabilität und weniger temporale Effekte, z.B. im Vergleich der Coverage oder auch der Serendipity.