„Ähnlichkeit über Text-Embeddings“ ist ein Algorithmus, der eingesetzt wird, wenn inhaltlich ähnliche Beiträge angezeigt werden sollen. Der Algorithmus nutzt Metadaten wie Beschreibungstexte, Genre und verschiedene Tags, um Beiträge miteinander zu vergleichen. Das hat den Vorteil, dass es komplett unabhängig vom Nutzungsverhalten ist. So können auch Beiträge empfohlen werden, die weniger Nutzung haben. Über die Varianz der Metadaten können die Empfehlungen vielfältiger gemacht werden. Beiträge können nicht nur thematisch beschrieben werden, es können auch Tags für Stimmungen vergeben werden, um hierzu ähnliche Empfehlungen zu erhalten.
Details zum Algorithmus
Um semantische Ähnlichkeit von Texten zu bestimmen, gibt es viele vortrainierte Modelle, sogenannte Embedding-Modelle. Sie transformieren Texte in eine mathematische Darstellung, Embeddings genannt.
Die Modelle sind so trainiert, dass die Embeddings von ähnlichen Texten mathematisch sehr nahe beieinander liegen, bei wenig ähnlichen Texten weit entfernt. So kann man einen Wert ausrechnen, der die semantische Ähnlichkeit zweier Texte darstellt.
Im ZDF benutzen wir ein vortrainiertes Text Embedding Modell, um ein Embedding für jedes Video oder eine Smart Collection zu berechnen. Der Input für das Modell ist eine Kombination des Beschreibungstextes und verschiedener Metadaten als Text.
Um nun inhaltlich ähnliche Empfehlungen für einen Inhalt zu bekommen, vergleicht der Algorithmus das Embedding des Referenzinhalts mit allen anderen Embeddings und gibt die Ähnlichsten zurück.
Anwendungsfälle
Text-Embeddings werden in den folgenden Anwendungsfällen genutzt:
Der Algorithmus sucht ähnliche Smart Collections und Videos indem er das Embedding der Smart Collections mit allen anderen Embeddings vergleicht.
Nachbearbeitung
Menge und Position von Partnerinhalten wird limitiert und entsprechend werden ZDF-Inhalte wenn nötig nach vorne sortiert. Inhalte der Partner 3sat, ARD, Arte, funk, Kika und phoenix werden frühestens ab Position 13 angezeigt.
Es wird ein Inhalt ausgewählt, der schon geschaut wurde. Der Algorithmus sucht ähnliche Inhalte indem er das Embedding des Beitrags mit allen anderen Embeddings vergleicht.
Nachbearbeitung
Inhalte der Partner 3sat, ARD, Arte, funk, Kika und phoenix werden nicht angezeigt.
Der Algorithmus benutzt die letzten vier Inhalte, die gesucht wurden. Es werden ähnliche Beiträge zu den gesuchten Inhalten über die Embeddings ausgegeben.
Nachbearbeitung
Neuere Suchen werden höher gewichtet als ältere. Gewichtung aktuellere Beiträge, als Premium markierte Beiträge und nach Altersgruppen.
Inhalte der Partner 3sat, ARD, Arte, funk, Kika und phoenix werden nicht angezeigt.
Der Anwendungsfall kommt als Fallback für "Nächstes Video" zum Einsatz, falls nutzungsbasierte Algorithmen kein Ergebnis liefern.
Methode
Der Algorithmus bestimmt ähnliche Videos zu einem Referenzvideo. Das Ähnlichste wird als nächstes Video angezeigt.
Nachbearbeitung
Es werden keine Smart-Collections empfohlen.
Trainingsdaten
Als Trainingsdaten werden Metadaten benutzt, die von Redakteuren erstellt werden. Zu diesen gehören ein Beschreibungstext, Titel, Genres, Stimmungsbegriffe und inhaltliche Schlagworte.
Bewertung und Performance
Sehvolumen und AB-Tests zum Vergleich von Embedding Modellen
Grenzen und Risiken
Der Algorithmus kennt kein tatsächliches Nutzungsverhalten. Die inhaltliche Ähnlichkeit zu einem Ausgangsbeitrag passt nicht immer zum Interesse der Nutzer:innen. Es entsteht oft ein „mehr vom gleichen Effekt“.
Die Qualität der Empfehlungen hängt stark von der Qualität der Meta-Daten ab. Empfehlungen sind daher immer nur so gut wie die Meta-Daten es zulassen.
Bereitstellung
Embeddings werden vorberechnet und in einer speziellen Vektordatenbank abgelegt.
Die Vektordatenbank erlaubt ein effizientes Berechnen der Ähnlichkeiten zwischen Embeddings.