Datenexport

Erfahren Sie, wie Sie die Daten in Ihrem Raffinerieprojekt exportieren können

Datenexport

Es gibt zwei Möglichkeiten, Ihre Daten zu exportieren, die für verschiedene Zwecke nützlich sind. Es besteht die Möglichkeit lade deine Aufzeichnungen herunter und es gibt die Option, **einen Projekt-Snapshot zu erstellen**. Beide sind auf der Einstellungsseite zugänglich.

Abb. 1: Screenshot der Einstellungsseite, auf der der Benutzer im Begriff ist, einen Projekt-Snapshot zu erstellen.

Aufzeichnungen herunterladen

Diese Option wird am häufigsten gewählt, wenn es darum geht, Ihre Daten zu exportieren, um sie außerhalb der Raffinerie zu verwenden. Sobald Sie sich dafür entschieden haben, Ihren Datensatz herunterzuladen, erscheint ein Modal, mit dem Sie die Daten, die Sie exportieren möchten, vollständig anpassen können (siehe Abb. 2).

Abb. 2: Modal, das nach einem Klick auf die Schaltfläche 'Datensätze herunterladen' erscheint.“

Die Standardeinstellungen sind ein guter Ausgangspunkt, aber mit der Option „Benutzerdefiniert“ oben rechts können Sie alles nach Ihren Bedürfnissen auswählen. Es besteht auch die Möglichkeit, Ihre Daten im Label Studio-Format zu exportieren, das auch mit benutzerdefiniertem HTML-Code geliefert wird, um eine raffinerieähnliche Benutzeroberfläche in Label Studio zu erhalten. Wenn Sie Ihre Datei vor unbefugtem Zugriff schützen möchten, können Sie ein Passwort angeben, das die resultierende Zip-Datei schützt. Auf diese Weise müssten Sie das Passwort eingeben, wenn Sie die Daten extrahieren oder die Daten zurück in die Raffinerie importieren. Drücken Sie vor dem Herunterladen immer auf „Download vorbereiten“, um die neuesten Daten zu erhalten.

Eine der nützlichsten Optionen ist der „Exportbetrag“, da Sie auswählen können, nur ein bestimmtes Datensegment zu exportieren. Einige Szenarien, in denen Ihnen dies bei Ihrem Datenentwicklungsprozess helfen kann, könnten z. B. darin bestehen, nur beschriftete Datensätze zu exportieren, Trainings- und Testdaten getrennt zu exportieren oder nur Daten zu exportieren, die über einer bestimmten schwachen Vertrauensschwelle für die Aufsicht liegen. Das müssen Sie jedoch nicht beim Export entscheiden. Sie können die Daten anschließend nach Ihren Bedürfnissen filtern. Schauen wir uns also die exportierte Datei an, um das Schema besser zu verstehen:

[

{

„headline“: „Laptops für 200$ machen ein Geschäftsmodell kaputt“,

„running_id“: „1479",

„__ClickBait__Manual“: null,

„__ClickBait__Weak_Supervision“: „ja“,

„__ClickBait__Weak_Supervision__Confidence“: „0,4685",

„headline__entities__Manual“: [

„NEIN“,

„NEIN“,

„NEIN“,

„NEIN“,

„NEIN“,

„NEIN“,

„O“

],

„Headline__Entities__Weak_Supervision“: [

„GELD“,

„GELD“,

„NEIN“,

„NEIN“,

„NEIN“,

„NEIN“,

„O“

],

„Headline__Entities__Weak_Supervision__Confidence“: [

0,83,

0,83,

0,0,

0,0,

0,0,

0,0,

0,0

]

}

]

`headline` und `running_id` sind die Attribute unserer Datensätze, sie wurden beim ersten Datenimport angegeben. Alles, was mit einem doppelten Unterstrich `__` beginnt, ist ein Verweis auf eine vollständige Attributbeschriftungsaufgabe _classification_, die drei separate Einträge enthält: - `MANUAL`: das manuell gesetzte Label für diese Aufgabe. - `WEAK_SUPERVISION`: das schwach überwachte Label für diese Aufgabe. - `WEAK_SUPERVISION_CONFIDENCE`: das Vertrauen für das schwach überwachte Label. Das bedeutet, dass der JSON-Schlüssel `__ClickBait__Manual` die manuelle Bezeichnung für die gesamte Datensatzklassifizierungs-Labeling-Aufgabe `clickbait` als Wert enthält. Da Refinery auch _Informationsextraktion_ Beschriftungsaufgaben oder Klassifizierungsaufgaben anbietet, die für ein einzelnes Attribut und nicht für den gesamten Datensatz definiert sind, können Sie im JSON auch andere Einträge finden, die demselben Muster mit drei separaten Einträgen folgen, aber dieses Mal wird ihnen der Name des Attributs vorangestellt, für das die Beschriftungsaufgabe definiert ist. Daher bezieht sich `headline__ENTITITIES__MANUAL` auf das manuelle Label für die Labeling-Aufgabe `entities`, das für das Attribut `headline` definiert ist. Der Typ der Beschriftungsaufgabe definiert, ob es sich bei dem Eintrag um eine Liste (Extraktion) oder um einen einzelnen Wert (Klassifizierung) handelt. Wenn Sie eine Auffrischung zu den verschiedenen Arten von Etikettierungsaufgaben benötigen, schauen Sie sich bitte den Abschnitt [Etikettierungsaufgaben] (/refinery/labeling-tasks) an.

Einen Projekt-Snapshot erstellen

Diese Datenexportoption ist hauptsächlich als Backup-Option konzipiert. Wenn Sie Ihr gesamtes Raffinerieprojekt exportieren möchten, das zu einem späteren Zeitpunkt wieder in die Raffinerie geladen werden kann, sollten Sie einen Projekt-Snapshot erstellen.

Abb. 3: Modal, das nach Auswahl der Projekt-Snapshot-Erstellung erscheint.

Sie können den Export an Ihre Bedürfnisse anpassen (siehe Abb. 3), z. B. könnten Sie die eingebetteten Tensoren einbeziehen, was mehr Speicherplatz benötigt, aber Rechenzeit spart, wenn Sie sie zurück in die Raffinerie importieren. Genau wie bei der Option „Datensätze herunterladen“ können Sie auch ein Passwort angeben, das die resultierende Zip-Datei schützt.