MISSION KI präsentiert Datensatz-Suchmaschine Daseen.de

Künstliche Intelligenz benötigt qualitativ hochwertige Daten, um effektiv trainiert zu werden und präzise Vorhersagen treffen zu können. MISSION KI will die Auffindbarkeit geeigneter Daten erleichtern und hat die neuartige Datensatz-Suchmaschine Daseen (Dataset Search Engine) entwickelt.

Künstliche Intelligenz benötigt qualitativ hochwertige Daten, um effektiv trainiert zu werden und präzise Vorhersagen treffen zu können. Obwohl es große Mengen an Daten gibt, ist nur ein Teil davon in einer leicht nutzbaren Form verfügbar. Viele Daten sind nicht einheitlich erfasst und liegen ohne Qualitätsbeschreibungen, sogenannte Datensteckbriefe, vor. Dies beeinträchtigt die Nutzung der Daten. MISSION KI will die Auffindbarkeit geeigneter Daten erleichtern und die Datenqualität steigern. Im Rahmen eines Projekts hat die Initiative die neuartige Datensatz-Suchmaschine Daseen (Dataset Search Engine) entwickelt, die erstmals eine quellenübergreifende Suche nach Datensätzen ermöglicht. Daseen ist jetzt als Beta-Version für die Öffentlichkeit unter www.daseen.de kostenfrei und ohne Registrierung nutzbar.

Die Datensatz-Suchmaschine basiert auf einer Open-Source Software-Lösung und kann aktuell auf über 70.000 kuratierte Datensätze von 29 Datenanbietern verschiedener Domänen (z.B. Verwaltung, Geodaten, Wetter) aus öffentlichen und privaten Datenportalen und -räumen zurückgreifen. Der Datenbestand wird in den kommenden Monaten kontinuierlich erweitert. Der KI-Dienstleister beebucket hat das Projekt für MISSION KI umgesetzt und wurde dabei von den Firmen eXXcellent solutions, deltaDAO und nexyo unterstützt.

Die vereinfachte Datensuche braucht Datenqualitätsbeschreibungen. Für die Datenqualitätsbeschreibungen haben die Partner den „Extended Dataset Profile Service“ (EDPS) entwickelt. Der EDPS ist eine einheitliche Methode, um Daten zu indizieren und zu katalogisieren. Mit dem EDPS können Metadaten, sogenannte Datensteckbriefe, für Datensätze automatisiert erstellt werden. Dies heißt konkret, dass Datenanbieter mit dem neuen Service die Möglichkeit erhalten, Daten aus unterschiedlichen Quellen automatisch zu katalogisieren, zu kuratieren und anhand von Datensteckbriefen auffindbar und nutzbar zu machen. Sind die Daten auf diese Weise beschrieben, können Datennutzer diese manuell oder maschinell über Datenräume und Datenportale hinweg anhand der Datensteckbriefe finden. Das Team hat den EDPS in Daseen integriert und stellt hierdurch sicher, dass die Datenqualität der hinterlegten Datensätze direkt sichtbar wird. Die Kombination aus Daseen und dem EDPS gibt Datennutzern die Möglichkeit, sich qualitativ hochwertige Daten passgenau zu beschaffen.

Der EDPS wurde so konzipiert, dass er lokal beim Datenanbieter betrieben werden kann. Hierfür kommen gängige Connector-Lösungen wie der Eclipse Data Space Connector zum Einsatz. Damit folgt der EDPS dem Compute-to-Data-Prinzip: Die zur Erstellung der Datensteckbriefe verwendeten Algorithmen werden dort ausgeführt, wo die Daten physisch liegen – also beim Nutzer. Auf diese Weise wird sichergestellt, dass die Daten nicht bewegt werden müssen, um die gewünschten Metadaten zu generieren.

Das Team hat den leistungsstarken Service in etablierte Datenräume wie den Mobility Data Space und Pontus-X eingebunden. Weiterhin wurde sichergestellt, dass die entwickelte Software mit bestehenden technischen Lösungen und Standards harmoniert, sodass diese sicher, offen zugänglich und langfristig betreibbar ist.

Von den Software-Lösungen Daseen und EDPS, die separate, aber interoperable Komponenten sind, werden datenanbietende und datennutzende Unternehmen gleichermaßen profitieren ebenso wie Betreiber von Datenräumen und Datenportalen. Das Team stellt die Software-Lösungen jetzt als Open-Source auf Github zur Verfügung, um eine breite Nachnutzung zu ermöglichen: https://github.com/Mission-KI/Dataset-Search-Engine

 

 

Florian Mauer-Endler, geschäftsführender Gesellschafter bei der beebucket GmbH:

„Wir freuen uns, dass die Umsetzung des Projektes so gut gelungen ist – und das mit einer Technologie, die es in der Form bisher nicht gab. Spannend werden auch die nächsten Schritte, denn die entwickelte Lösung hat eine Relevanz für sämtliche Datendienste in der europäischen Union. Das Wissen über die Metadaten ist Voraussetzung für die Entwicklung nachhaltig digitaler Dienste und erlaubt überhaupt erst einen rechtssicheren Betrieb.“ 


 

Nach oben scrollen
»Imagine you could simply apply and operate AI everywhere.«

Möchten sie mehr darüber erfahren, wie AI Ihrem Unternehmen nützen kann? Dann lassen Sie uns sprechen.