Verwenden Sie Refinery, um Ausreißer in Ihrem Datensatz zu identifizieren.
Neuronale Suche bezieht sich auf das Konzept der Suche in einem Einbettungsraum, der von neuronalen Netzwerken erzeugt wird. Anstatt nach gleichzeitig auftretenden N-Grammen zu suchen, um ähnliche Datensätze abzurufen, verwendet die neuronale Suche die kontextreichen Einbettungen, die durch große, vorab trainierte Sprachmodelle generiert werden, und eine Entfernungsmetrik in diesem Raum, um die Ähnlichkeit zwischen Datensätzen zu definieren. Diese Ähnlichkeit kann für beide Anwendungsfälle genutzt werden: zum Auffinden ähnlicher Daten, aber auch zum Erkennen von Ausreißern. Eine Voraussetzung für die Verwendung der neuronalen Suche ist, dass Sie dem Projekt bereits [Einbettungen] (/refinery/embedding-integration) hinzugefügt haben.
Jeder Datensatz im Datenbrowser hat die Option, „ähnliche Datensätze zu finden“, wodurch die Kosinusähnlichkeit anhand der ausgewählten Einbettungen berechnet wird. Nachdem Sie die Einbettung ausgewählt haben, zeigt der Datenbrowser Datensätze mit absteigender Ähnlichkeit an, beginnend mit dem Datensatz, für den Sie die Ähnlichkeitssuche angefordert haben (da er sich selbst am ähnlichsten ist). Wenn Sie die Ähnlichkeitssuche verwenden, können Sie nicht nach etwas anderem filtern. Dadurch wird die Ähnlichkeitssuche ersetzt. Die Ähnlichkeitssuche kann nicht als Datensegment gespeichert werden.
Wir verwenden den Vektordistanzvergleich, um Datensätze zu finden, bei denen es sich bei einem gewissen Vektorraum um Ausreißer handelt. Um diese Funktion nutzen zu können, benötigen wir mindestens einen beschrifteten Datensatz, da wir Pools von unbeschrifteten und beschrifteten Daten für diese Ausreißererkennung vergleichen (obwohl, um wirklich Sinn zu machen, hätten Sie mehr beschriftet haben sollen). Bei der Ausreißererkennung wird ein Datensegment mit 100 Datensätzen erstellt, die sich (im Durchschnitt) am meisten von den bereits beschrifteten Daten unterscheiden (oder sich am wenigsten ähnlich_) sind. Die Ähnlichkeit wird anhand des Kosinusabstands im Einbettungsraum gemessen. Dieses Datensegment wird nach aufsteigender Ähnlichkeit sortiert. Auf diese Funktion kann ganz unten in der Seitenleiste des Datenbrowser-Filters zugegriffen werden. Klicken Sie dort einfach auf die Schaltfläche „Ausreißer finden“.

Abb. 1: GIF eines Benutzers, der im Datenbrowser ein statisches Ausreißer-Datensegment erstellt.
Die Ergebnisse der Ausreißererkennung hängen stark vom Vektorraum ab. Insbesondere wenn Sie es als Filterkriterium für die Seite [monitoring] (/refinery/monitoring) verwenden, können Sie schnell Schwachstellen oder/und Hindernisse in Ihren Daten finden, z. B. fehlerhafte Datensätze oder völlig unabhängige Sprachen erkennen.