Skip to content

nhmvienna/Darwin-Core-Konformitaetsanalyze-und-MIDS-Level-Rechner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Wie das System Darwin Core verwendet

Das Specimen Data Analysesystem fungiert als Sprachübersetzer und Qualitätsprüfer für Ihre Daten. Wenn Sie Ihren Datensatz hochladen, führt das System zwei Hauptprüfungen in Bezug auf Darwin Core durch:

  1. Feldnamen-Validierung: Das System betrachtet die Spaltenüberschriften in Ihrer Datendatei und vergleicht sie mit dem offiziellen Darwin Core-Vokabular. Es ist intelligent genug, verschiedene Variationen zu erkennen, sodass es keine Rolle spielt, ob Sie `dwc:scientificName` oder nur `scientificName` verwenden. Dies ist wie die Überprüfung, ob Sie die richtigen Wörter aus dem Wörterbuch verwenden.
    
  2. Datenvollständigkeits-Bewertung: Das System betrachtet dann die Daten innerhalb jeder Ihrer Spalten, um zu sehen, wie vollständig sie sind. Wenn Sie beispielsweise eine Spalte für `decimalLatitude` haben, aber viele der Zeilen leer sind, wird das System feststellen, dass dieses Feld eine geringe Vollständigkeit aufweist. Dies ist wie die Überprüfung, ob Sie alle wichtigen Details in Ihren Notizen ausgefüllt haben.
    

Den Darwin Core Score verstehen

Nach der Analyse Ihrer Daten gibt Ihnen das System einen Gesamt-Conformity Score. Dieser Score ist eine Kombination aus der Übereinstimmung Ihrer Feldnamen mit dem Darwin Core-Standard und der Vollständigkeit Ihrer Daten. Der Score ist gewichtet, wobei die Feldnamen-Übereinstimmung wichtiger ist (70% des Scores) als die Datenvollständigkeit (30% des Scores). Dies liegt daran, dass es wichtiger ist, zunächst die richtige Sprache zu verwenden, auch wenn einige Details fehlen. Basierend auf diesem Score weist das System eine Buchstabennote von A+ bis F zu, genau wie in der Schule. Dies ist ebenfalls kombiniert mit einem Ampelsystem, welches mit Farbsignalen leicht interpretierbare Ergebnisse darstellt. Dies gibt Ihnen eine schnelle und einfache Möglichkeit, die Qualität Ihrer Daten zu verstehen. Das System bietet auch spezifische Empfehlungen, wie Sie Ihren Score verbessern können, beispielsweise durch Umbenennung bestimmter Spalten oder Ausfüllen fehlender Daten.

MIDS: Die Qualität Ihrer digitalen Exemplare messen

Während Darwin Core die Sprache zur Beschreibung Ihrer Daten bereitstellt, bietet der Minimum Information about a Digital Specimen (MIDS) -Standard eine Möglichkeit, die Qualität und Vollständigkeit dieser Daten zu messen. Betrachten Sie es als Bewertungssystem für Ihre digitalen Exemplare. Genau wie ein physisches Exemplar in einem Museum nach seinem Zustand und seiner Vollständigkeit bewertet werden könnte, bietet MIDS eine Möglichkeit, Ihre digitalen Daten zu bewerten.

Die vier MIDS-Level

MIDS definiert vier Datenqualitätslevel von 0 bis 3. Jedes Level baut auf dem vorherigen auf und erfordert immer detailliertere Informationen. Hier ist eine einfache Aufschlüsselung dessen, was jedes Level bedeutet:

• MIDS Level 0: Keine Konformität. Dies bedeutet, dass den Daten einige der grundlegendsten Informationen fehlen, die für ihre Nützlichkeit erforderlich sind. Es ist wie ein Exemplar in einem Glas ohne Etikett zu haben.

• MIDS Level 1: Grundlegende Exemplar-Identifikation. Auf diesem Level haben Sie die wesentlichsten Informationen über Ihr Exemplar, wie seine physische ID, die Organisation, die es besitzt, und seinen wissenschaftlichen Namen. Dies ist wie ein Etikett auf Ihrem Glas zu haben, das sagt, was das Exemplar ist und woher es kommt.

• MIDS Level 2: Erweiterte Exemplar-Daten. Dieses Level fügt mehr Kontext zu Ihrem Exemplar hinzu, wie wo und wann es gesammelt wurde, wer es gesammelt hat und ob es Bilder oder andere Medien gibt, die damit verbunden sind. Dies ist wie ein detaillierteres Etikett zu haben, das eine Karte des Fundorts und ein Bild des Exemplars in seinem natürlichen Lebensraum enthält.

• MIDS Level 3: Umfassende Exemplar-Daten. Dies ist das höchste Level der Datenqualität. Es umfasst alle Informationen der niedrigeren Level plus noch detailliertere Informationen wie präzise geografische Koordinaten, eindeutige Identifikatoren für die Institution und den Sammler sowie einen Link zum offiziellen wissenschaftlichen Namen in einer anerkannten Datenbank. Dies ist wie ein vollständiger digitaler Datensatz Ihres Exemplars zu haben, der mit einem globalen Netzwerk wissenschaftlicher Daten verknüpft ist.

Wie das System MIDS-Level berechnet

Das Specimen Data Analysis System geht Ihre Daten Zeile für Zeile durch und überprüft, welches MIDS-Level jeder Datensatz erfüllt. Es ist ein kumulatives System, sodass Sie zur Erreichung eines höheren Levels zunächst alle Anforderungen der niedrigeren Level erfüllen müssen. Das System ist auch intelligent in der Art, wie es nach Informationen sucht. Um beispielsweise die Anforderung für eine QuantitativeLocation zu erfüllen, können Sie entweder eine locationID oder eine Kombination aus decimalLatitude und decimalLongitude bereitstellen. Diese Flexibilität macht es einfacher, die MIDS-Standards zu erfüllen, ohne Ihre bestehenden Datensammlungspraktiken zu sehr ändern zu müssen. Nach der Analyse aller Ihrer Daten gibt Ihnen das System einen Bericht, der zeigt, wie viele Ihrer Datensätze in jedes MIDS-Level fallen. Es berechnet auch ein durchschnittliches MIDS-Level für Ihren gesamten Datensatz und gibt Ihnen eine Qualitätsnote von "Excellent" bis "Very Poor". Dies gibt Ihnen ein klares Bild der Gesamtqualität Ihrer Daten und hilft Ihnen, Bereiche zu identifizieren, in denen Sie Verbesserungen vornehmen können.

Wie man das System verwendet: Eine Schritt-für-Schritt-Anleitung

Das Specimen Data Analysis System ist darauf ausgelegt, einfach zu verwenden zu sein, auch wenn Sie keine Programmiererfahrung haben. Hier ist eine einfache Schritt-für-Schritt-Anleitung zur Analyse Ihrer Daten:

  1. Ihre Daten hochladen: Der erste Schritt ist das Hochladen Ihrer Datendatei. Das System akzeptiert gängige Dateiformate wie CSV, XLS und XLSX. Sie können Ihre Datei entweder per Drag & Drop in den Upload-Bereich ziehen oder auf Ihrem Computer danach suchen.
  2. Ihre Analyse wählen: Sobald Ihre Datei hochgeladen ist, können Sie wählen, welche Art von Analyse Sie durchführen möchten. Sie können entweder eine Darwin Core-Analyse durchführen, um Ihre Feldnamen und Datenvollständigkeit zu überprüfen, oder Sie können eine MIDS-Level-Berechnung durchführen, um die Qualität Ihrer Exemplardaten zu bewerten. Sie können auch wählen, eine "verbose" Analyse durchzuführen, die Ihnen detaillierteres Feedback gibt.
  3. Ihre Ergebnisse überprüfen: Nach Abschluss der Analyse zeigt das System Ihre Ergebnisse in einem leicht verständlichen Format an. Sie sehen Ihre Gesamtscores, Noten und eine Aufschlüsselung, wie Ihre Daten in verschiedenen Bereichen abgeschnitten haben. Sie können auch Diagramme und Grafiken anzeigen, die Ihre Ergebnisse visualisieren.
  4. Ihren Bericht herunterladen: Wenn Sie Ihre Ergebnisse speichern oder mit anderen teilen möchten, können Sie einen detaillierten Bericht im Textdateiformat herunterladen. Dieser Bericht enthält alle Informationen aus den Online-Ergebnissen sowie eine Aufzeichnung, wann die Analyse durchgeführt wurde.

Technischer Architektur-Überblick

Dieser Abschnitt bietet einen detaillierteren Überblick darüber, wie das System aufgebaut ist und wie es funktioniert.

System-Architektur

Das Specimen Data Analysis System ist als Webanwendung unter Verwendung des Flask-Frameworks aufgebaut, einem beliebten Python-Webentwicklungswerkzeug. Das System besteht aus mehreren Schlüsselkomponenten:

  1. Web-Interface: Eine benutzerfreundliche Web-Oberfläche, die mit HTML, CSS und JavaScript erstellt wurde und es Benutzern ermöglicht, Dateien hochzuladen und Ergebnisse anzuzeigen.
  2. API-Backend: Eine Flask-basierte API, die Datei-Uploads, Datenverarbeitung und Analyse verwaltet.
  3. Analyse-Engines: Zwei spezialisierte Analysemodule - eines für Darwin Core-Validierung und eines für MIDS-Level-Berechnung.
  4. Datenspeicherung: Eine SQLite-Datenbank zur Speicherung von Benutzerinformationen und Analyseergebnissen sowie ein Dateisystem zur Speicherung hochgeladener Datendateien.

Datenverarbeitungs-Pipeline

Wenn Sie eine Datei hochladen, folgt das System einer spezifischen Pipeline:

  1. Datei-Validierung: Das System überprüft zunächst, ob Ihre Datei in einem unterstützten Format vorliegt und ordnungsgemäß gelesen werden kann.
  2. Intelligente Header-Erkennung: Das System erkennt automatisch, welche Zeile Ihre Spaltenüberschriften enthält, indem es die ersten drei Zeilen Ihrer Datei überprüft.
  3. Datenanalyse: Je nach Ihrer Wahl führt das System entweder die Darwin Core-Analyse oder die MIDS-Berechnung (oder beide) durch.
  4. Ergebnis-Generierung: Das System generiert sowohl eine webfreundliche Anzeige Ihrer Ergebnisse als auch einen herunterladbaren Textbericht.

Analyse-Algorithmen

• Darwin Core-Analyse:
a. Lädt das offizielle Darwin Core-Vokabular aus einer Referenzdatei b. Erstellt Nachschlagetabellen, um Ihre Spaltennamen mit offiziellen Begriffen abzugleichen c. Berechnet die Feldabdeckung als Prozentsatz Ihrer Spalten, die mit Darwin Core-Begriffen übereinstimmen d. Berechnet die Datenvollständigkeit als durchschnittlichen Prozentsatz nicht-leerer Werte über alle gültigen Felder e. Kombiniert diese Metriken mit einer gewichteten Formel, um einen Gesamtscore zu generieren

• MIDS-Level-Berechnung:
a. Verwendet ein komplexes Mapping-System, das definiert, wie Darwin Core-Felder zu MIDS-Elementen in Beziehung stehen b. Implementiert drei Arten von Feldabgleich: exakte Übereinstimmungen, enge Übereinstimmungen und Schnittmengen c. Bewertet jeden Datensatz einzeln, um sein MIDS-Level zu bestimmen d. Aggregiert Ergebnisse, um die Verteilung der Datensätze über MIDS-Level zu zeigen

Qualitätssicherung

Das System umfasst mehrere Funktionen zur Gewährleistung zuverlässiger Ergebnisse: a. Unterstützung mehrerer Dateiformate mit Fallback-Optionen b. Robuste Fehlerbehandlung und benutzerfreundliche Fehlermeldungen c. Umfassendes Logging für Qualitätssicherung d. Datenvalidierung zum Ausschluss offensichtlich ungültiger Werte (leer, null, "unknown", etc.)

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors