Model Card: Ähnlichkeit über Text-Embeddings

Überblick

„Ähnlichkeit über Text-Embeddings“ ist ein Algorithmus, der eingesetzt wird, wenn inhaltlich ähnliche Beiträge angezeigt werden sollen. Der Algorithmus nutzt Metadaten wie Beschreibungstexte, Genre und verschiedene Tags, um Beiträge miteinander zu vergleichen. Das hat den Vorteil, dass es komplett unabhängig vom Nutzungsverhalten ist. So können auch Beiträge empfohlen werden, die weniger Nutzung haben. Über die Varianz der Metadaten können die Empfehlungen vielfältiger gemacht werden. Beiträge können nicht nur thematisch beschrieben werden, es können auch Tags für Stimmungen vergeben werden, um hierzu ähnliche Empfehlungen zu erhalten.

Details zum Algorithmus

Um semantische Ähnlichkeit von Texten zu bestimmen, gibt es viele vortrainierte Modelle, sogenannte Embedding-Modelle. Sie transformieren Texte in eine mathematische Darstellung, Embeddings genannt.

Die Modelle sind so trainiert, dass die Embeddings von ähnlichen Texten mathematisch sehr nahe beieinander liegen, bei wenig ähnlichen Texten weit entfernt. So kann man einen Wert ausrechnen, der die semantische Ähnlichkeit zweier Texte darstellt.

Im ZDF benutzen wir ein vortrainiertes Text Embedding Modell, um ein Embedding für jedes Video oder eine Smart Collection zu berechnen. Der Input für das Modell ist eine Kombination des Beschreibungstextes und verschiedener Metadaten als Text.

Um nun inhaltlich ähnliche Empfehlungen für einen Inhalt zu bekommen, vergleicht der Algorithmus das Embedding des Referenzinhalts mit allen anderen Embeddings und gibt die Ähnlichsten zurück.

Anwendungsfälle

Text-Embeddings werden in den folgenden Anwendungsfällen genutzt:

„Empfehlungen zu Filmen, Serien und Magazin-Sendungen“.

Methode

Der Algorithmus sucht ähnliche Smart Collections und Videos indem er das Embedding der Smart Collections mit allen anderen Embeddings vergleicht.

Nachbearbeitung

Menge und Position von Partnerinhalten wird limitiert und entsprechend werden ZDF-Inhalte wenn nötig nach vorne sortiert. Inhalte der Partner 3sat, ARD, Arte, funk, Kika und phoenix werden frühestens ab Position 13 angezeigt.

„Weil Du '...' Geschaut Hast“-Band auf Startseite.

Methode

Es wird ein Inhalt ausgewählt, der schon geschaut wurde. Der Algorithmus sucht ähnliche Inhalte indem er das Embedding des Beitrags mit allen anderen Embeddings vergleicht.

Nachbearbeitung

Inhalte der Partner 3sat, ARD, Arte, funk, Kika und phoenix werden nicht angezeigt.

"Suche Einstiegsseite" auf der Suchseite.

Methode

Der Algorithmus benutzt die letzten vier Inhalte, die gesucht wurden. Es werden ähnliche Beiträge zu den gesuchten Inhalten über die Embeddings ausgegeben.

Nachbearbeitung

Neuere Suchen werden höher gewichtet als ältere. Gewichtung aktuellere Beiträge, als Premium markierte Beiträge und nach Altersgruppen.
Inhalte der Partner 3sat, ARD, Arte, funk, Kika und phoenix werden nicht angezeigt.

Der Anwendungsfall kommt als Fallback für "Nächstes Video" zum Einsatz, falls nutzungsbasierte Algorithmen kein Ergebnis liefern.

Methode

Der Algorithmus bestimmt ähnliche Videos zu einem Referenzvideo. Das Ähnlichste wird als nächstes Video angezeigt.

Nachbearbeitung

Es werden keine Smart-Collections empfohlen.

Trainingsdaten

Als Trainingsdaten werden Metadaten benutzt, die von Redakteuren erstellt werden. Zu diesen gehören ein Beschreibungstext, Titel, Genres, Stimmungsbegriffe und inhaltliche Schlagworte.

Bewertung und Performance

  • Sehvolumen und AB-Tests zum Vergleich von Embedding Modellen

Grenzen und Risiken

Der Algorithmus kennt kein tatsächliches Nutzungsverhalten. Die inhaltliche Ähnlichkeit zu einem Ausgangsbeitrag passt nicht immer zum Interesse der Nutzer:innen. Es entsteht oft ein „mehr vom gleichen Effekt“. Die Qualität der Empfehlungen hängt stark von der Qualität der Meta-Daten ab. Empfehlungen sind daher immer nur so gut wie die Meta-Daten es zulassen.

Bereitstellung

Embeddings werden vorberechnet und in einer speziellen Vektordatenbank abgelegt.
Die Vektordatenbank erlaubt ein effizientes Berechnen der Ähnlichkeiten zwischen Embeddings.

Quellen

Paper Content-Embeddings (Basismodell): Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks (Reimers, Gurevych)
Paper Content-Embeddings (Erweiterung um Mehrsprachigkeit): Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation (Reimers, Gurevych)
Implementierung Content-Embeddings: vortrainiertes, mehrsprachiges Modell "distiluse-base-multilingual-cased-v1" zur Berechnung von Embeddings