Daten hochladen

Viele GenAI-Agenten verwenden Retrieval Augmented Generation (RAG), um Wissen aus Dokumenten und unstrukturierten Daten zu gewinnen. Da Wissen oft in PDF-Dateien gespeichert wird, können Sie unsere ETL-Pipeline verwenden, um die PDF-Datei in ein für LLM zugänglicheres Markdown-Format zu konvertieren. Darüber hinaus wird es zu kleineren RAG-fähigen Inhaltsblöcken verarbeitet und kann dann über einen optionalen Export in Refinery der Kern AI-Plattform gespeichert werden. Dieser Abschnitt ist für das Hochladen von Daten vorgesehen. Weitere Informationen zu den Vorgängen finden Sie in der Abschnitt „Dokumentation zur Datenverarbeitung“.

Wenn du deine Daten hochlädst, durchläuft sie mehrere Phasen:

Hochladen: Die PDF-Datei wird in die Anwendung hochgeladen und gespeichert
Warteschlange: Das Dokument wartet darauf, verarbeitet zu werden, da sich gerade andere Dokumente in der Pipeline befinden
Extrahieren: Dokument extrahieren/Text aus dem PDF abrufen, entweder über pdf2markdown, ein LLM oder einen Dienst wie Azure Document Intelligence.
Tokenisierung: Das Dokument wird zur semantischen Aufteilung von Spacy tokenisiert
Aufteilen: Der Markdown-Rohtext wird in Stücke geschnitten, um einen logischen Block in einer RAG-fähigen Länge am besten darzustellen
Transformieren: Die Chunks werden mithilfe eines Sprachmodells bereinigt und optimiert, z. B. Text in Tabellen transformiert
Fertig: Der Vorgang ist abgeschlossen, die Daten können manuell weiter bearbeitet und exportiert werden

Sie können analysieren, wie die Markdown-Chunks aussehen und wie sie derzeit gespeichert werden. Auf der rechten Seite können Sie auch sehen, wie lang die einzelnen Fakten sind, sowie eine Best-Practice-Cutoff-Länge.

Wenn ein Text zusätzliche Änderungen benötigt, können die Verbesserungen direkt im Texteditor oder mit einer der Optionen „In Markdown-Table“ (um ihn in eine Markdown-Tabelle zu konvertieren) oder „Text reinigen“ (um den Text von Sonderzeichen oder Text zu reinigen, der nicht dem Inhalt entspricht) vorgenommen werden. Sobald die Analyse/Überprüfung abgeschlossen ist, kann dies einfach mit der Schaltfläche „Überprüfung beenden“ markiert werden. Alle Dateien, nur überprüfte Dateien oder jede Datei einzeln können in einem Excel-Formular heruntergeladen werden. Darüber hinaus kann der Text weiter in Abschnitte aufgeteilt werden, indem dem Text drei Bindestriche (- - -) hinzugefügt werden. Weitere Informationen zu verloren gegangenen Informationen und zur Bereinigung von Daten finden Sie im Abschnitt „Dokumentation zur Datenverarbeitung“.

ETL-API-Endpunkt

Eine weitere Option zum Ausführen der ETL-Pipeline ist die API, mit der Sie die Pipeline ausführen und Ergebnisse sammeln können, ohne die Benutzeroberfläche der Anwendung zu verwenden. Der bereitgestellte Codeausschnitt erfordert benutzerdefinierte Konfigurationen, einschließlich des API-Schlüssels/Tokens, des Dateipfads und der Extraktionsmethode. Token können innerhalb der Anwendung mit anpassbaren Ablaufoptionen (1 Monat, 3 Monate oder nie) generiert werden. Es ist wichtig, den Token-Wert sicher zu speichern, da er nach der Erstellung nicht in der Tabelle sichtbar ist.

Token werden entweder der ETL-Ebene (Betreff MARKDOWN_DATASET) oder der Projektebene (Betreff PROJECT) zugewiesen, wobei jedes Token einen definierten Umfang hat. ETL-Token werden ausschließlich innerhalb des ETL-Prozesses verwendet, während Projekt-Token auf die Projektebene beschränkt sind.

Zwischenspeichern von Dateien

Um die Leistung und Effizienz der Dateiverarbeitung zu verbessern, führt die Anwendung einen Caching-Mechanismus ein, der auf SHA-256-Hashing basiert. Durch das Zwischenspeichern bei jedem kritischen Schritt — vom ersten Datei-Upload über die Extraktion bis hin zur endgültigen Transformation — wird sichergestellt, dass nur neue und einzigartige Operationen der Dateiverarbeitung ausgeführt werden.

Datei-Upload und Hashing — Wenn eine Datei hochgeladen wird, generiert die Anwendung eine eindeutige Kennung für ihren Inhalt, indem sie zusammen mit der Dateigröße einen SHA-256-Hash berechnet. Diese Kombination dient als digitaler Fingerabdruck, der den Inhalt der Datei eindeutig darstellt. Das System prüft dann, ob im Datenverarbeitungsumfang der Organisation bereits eine Datei mit derselben Kennung existiert. Wenn zuvor eine identische Datei hochgeladen wurde, überspringt das System den Upload-Vorgang und verwendet die vorhandene Datei einfach wieder, wodurch redundante Speicherung vermieden und die Verarbeitungszeit reduziert wird.
Dateiextraktion — Die nächste Caching-Ebene beinhaltet das Extrahieren von Dateien. Eine Dateiextraktion bezieht sich auf die spezifische Kombination aus der hochgeladenen Datei und dem zu ihrer Verarbeitung verwendeten Extraktor (z. B. pdf2markdown). Das System speichert das Ergebnis jeder Extraktion im Cache, was bedeutet, dass das System den zuvor extrahierten Inhalt wiederverwendet, wenn dieselbe Datei erneut hochgeladen und mit demselben Extraktor verarbeitet wird. Dadurch entfällt die Notwendigkeit, die Datei erneut zu verarbeiten, was sowohl Zeit als auch Rechenressourcen spart.
Transformation — Ähnlich wie Extraktionen werden auch Transformationen als zwischenspeicherbarer Prozess behandelt. Eine Transformation ist definiert als die Kombination aus der Extraktion und einer beliebigen spezifischen Konfiguration, die für den Transformationsschritt angewendet wird. Sobald eine Transformation für eine bestimmte Extraktion abgeschlossen ist, wird der resultierende transformierte Inhalt zwischengespeichert. Das bedeutet, dass das System die zuvor transformierten Ergebnisse wiederverwendet, wenn Sie in Zukunft dieselbe Transformation auf denselben extrahierten Inhalt anwenden. Es umgeht die Notwendigkeit, die Transformation erneut durchzuführen, und spart so Ressourcen und Zeit.

‍