Upload und Analyse gescannter PDFs #5
Replies: 3 comments 5 replies
-
|
Als Ergänzung zur obigen Beschreibung: Der Prototyp ist eine Kombination aus RAG + LLM, welches rechtliche Fragen des Benutzers auf Basis der Daten in der Datenbank beantwortet und die Datenquellen referenziert. Aktuelle Daten in der Datenbank sind: Fedlex, Belex und Gerichtsurteile der Berner Kantonsgerichte (Obergericht, Verwaltungsgericht, Sozialversicherungsgericht, etc.). Am Hackathon möchten wir diesen Prototypen erweitern. Als Ergänzung zu unserem Team suchen wir Fachexpert*innen (da niemand von uns aus dem Fach ist) und Coders kann man auch nie genug haben ;) |
Beta Was this translation helpful? Give feedback.
-
Umwandlung von PDFs in maschinenlesbare DatenViele juristische Texte befinden sich in PDFs. Während PDFs für das menschliche Auge einfach zu lesen sind, sind sie für Maschinen suboptimal. Das stellt eine challenge für KI-gestützte juristische Anwendungen dar, die auf strukturierte, maschinenlesbare Daten angewiesen sind – etwa für Retrieval-Augmented Generation (RAG). 1. PDF-ParserDie erste Aufgabe besteht darin, einen Parser zu finden/entwickeln, der juristische PDFs präzise in strukturierte Formate wie XML oder JSON umwandelt. Dabei müssen folgende Aspekte berücksichtigt werden:
2. Verarbeitung gescannter DokumenteBei gescannten PDFs ist Optical Character Recognition (OCR) erforderlich, um sie maschinenlesbar zu machen. Hierbei besteht die Challenge darin, die Dokumentstruktur nach der OCR-Umwandlung beizubehalten. DatenFür den Hackathon stellen wir eine Auswahl an PDFs bereit, die von Fedlex, Belex und entscheidsuche.ch stammen. Da unser Zugang zu anderen Dokumenttypen begrenzt ist, freuen wir uns über die Unterstützung von juristischen Fachleuten, die uns auf weitere anspruchsvolle Dokumente hinweisen können. Auch haben wir nur wenige gescannte juristische PDFs zur Verfügung, sodass Beiträge in diesem Bereich besonders wertvoll sind. Natürlich sind motivierte Hacker herzlich willkommen im Team! 🚀 |
Beta Was this translation helpful? Give feedback.
-
|
Inwiefern wäre auch die Erweiterung um OCR interessant. Im Umfeld der Zahlungsbefehle / deren Digitalisierung besteht aktuell ein grosser Need bei den Ämtern (Muster)? Die Formulare werden teils maschniell, teils von Hand ausgefüllt und müssen heute überwiegend manuell wiederum digitalisiert und zurück in die Betreibungssoftware zurückgeführt werden. Ergo wäre die Transforamtion der Zahlungsbefehle in eine strukturierte Datenform ein relevante Arbeitserleichterung in einem Wachstumsumfeld mit heute rund 3. Mio Zahlungsbefehlen national. |
Beta Was this translation helpful? Give feedback.

Uh oh!
There was an error while loading. Please reload this page.
-
Diese Challenge basiert auf einem bereits entworfenen KI-Prototypen für den Einsatz im juristischen Umfeld. Dieser ist unter der folgenden Website kostenlos verfügbar: https://iuslex.cloud/.
Der IUS-Prototyp könnte um die Möglichkeit erweitert werden, gescannte juristische Dokumente (z.B. Anklageschriften, Beschwerden, Stellungnahmen, Klageerwiderungen etc.) hochzuladen. Mithilfe von KI-gestützter Analyse könnten diese Dokumente in durchsuchbaren Text umgewandelt und hinsichtlich rechtlicher Grundlagen, relevanter Präzedenzfälle und inhaltlicher Fragen untersucht werden.
Beta Was this translation helpful? Give feedback.
All reactions