Automatisierte Quellenerschließung

Wissen lebt Online

Automatisierte Quellenerschließung

Ein Crawler pro Quelle

Der klassische Weg zur Erschließung heterogener Quellen ist, einen spezialisierten Crawler pro Quelle zu bauen.

Unsere Crawler sind präzise auf die Strukturen und Besonderheiten der jeweiligen Quellen abgestimmt. Dadurch extrahieren sie selbst gut versteckte Informationen aus der Seitenarchitektur.

Die bestehende Infrastruktur mit ca. 55 aktiven Diensten wurde umfassend modernisiert: Neben der Aktualisierung bestehender Crawler wurden neue Quellen angebunden, um die Datenbasis zu erweitern. Gleichzeitig ermöglichen technische Weiterentwicklungen nun die präzise Analyse komplexer, JavaScript-basierter Webseiten und Single-Page-Anwendungen. Auch Funktionen wie Screenshot-Erstellung, Lizenzzuordnung und Metadatentransformation wurden deutlich verbessert.

Die vollständige Containerisierung über Docker und Kubernetes sorgt für einen stabilen Parallelbetrieb. Verwaltung und Monitoring laufen automatisch über zentrale Orchestrierungswerkzeuge.

Ein Crawler für alle

Generischer Crawler als Ansatz für die ressourcen-schonende flexible Erschließung vieler heterogener Inhalte

Bei der Vielzahl der Quellen und Erschließungswünsche eines wachsenden Redaktionsnetzwerks ist der Ansatz der individuellen Crawler keine nachhaltige Option. Daher entwickelten wir einen Universal-Crawler. Dieses Programm soll auf eine beliebiges Internetangebot “ansetzbar” sein und soll sich selbst orientieren, um den jeweiligen Titel, Autor u.a. Metadaten zu finden. Dazu werden zum Einen die standardmäßig in HTML eincodierten Daten untersucht und verwendet sowie zum Anderen über angeschlossene Generatoren Metadaten hinzugefügt. Auf diese Weise lassen sich unterschiedliche Angebote im Netz ohne technisches Know How oder Entwicklungs-Arbeit erschließen.

Einfach mit der Browser Extension

Einzelne Seiten beim Surfen schnell erfassen

Die Browser-Extension macht das Sammeln und Teilen von Bildungsressourcen sehr einfach. Autor:innen, Redaktionen und Lehrkräfte können während des Surfens mit nur einem Klick beliebige Online-Inhalte als Ressourcenvorschlag erfassen. Unsere intelligente Technologie übernimmt dabei automatisch die Erstellung erster Metadaten wie Titel, Beschreibung und thematische Zuordnung, sodass die Vorschläge direkt für die redaktionelle Prüfung vorbereitet sind.

Hinter der Extension steckt eine moderne Architektur, die auf Flexibilität und Langlebigkeit ausgelegt ist. Durch den Einsatz von Web Components und einer schlanken Codebasis bleibt die Extension nicht nur wartungsfreundlich, sondern lässt sich auch einfach um neue Funktionen erweitern. Die dynamische Anbindung an edu-sharing und die Unterstützung verschiedener Inhaltearten machen sie zum idealen Werkzeug für den Bildungsbereich.

Auf der rechten Seite sieht man eine Seite zum Thema Katzen vom Klexikon. Auf der linken Seite sieht man die Browser Extension, wie sie gerade Daten eingesammelt hat und diese zur Kontrolle zeigt

Innovative Ansätze

Mit modernen Mitteln noch einfacher und flexibler erschließen

Mit einem innovativen, KI-gestützten Ansatz extrahieren wir automatisch die relevanten Metadaten direkt aus den Volltexten einer Webseite. Statt auf starre Seitenstrukturen zu setzen, analysiert unsere Lösung den Inhalt selbst. Das können Veranstaltungen mit Terminen sein, Lernorte mit Adressdaten oder Kurse mit Themen, Modulen und Zielgruppen. Selbst aus Begleittexten zu Materialien lassen sich so präzise pädagogische Informationen gewinnen.

Dieser Ansatz ist nicht nur flexibel und anpassungsfähig, sondern entlastet Nutzer:innen auch von der mühevollen manuellen Pflege von Metadaten. Statt sich mit technischen Details zu beschäftigen, können sie sich voll auf ihre eigentliche Expertise konzentrieren, während die KI im Hintergrund die passenden Informationen erschließt.