Workflow für selektives Webharvesting bei der Deutschen Nationalbibliothek
Workflow für selektives Webharvesting bei der Deutschen Nationalbibliothek.
Die Deutsche Nationalbibliothek (DNB) hat den gesetzlichen Auftrag, Publikationen in deutschen Netzen zu sammeln, zu archivieren und bereitzustellen. Ziel ist es, zusammen mit einem Dienstleister einen Workflow zu etablieren, bei dem ausgewählte Websites regelmäßig eingesammelt (Harvesting), gesichert und über ein Webinterface bereitgestellt werden. Während die Auswahl der zu sammelnden Websites und die Bereitstellung von Metadaten zu den Websites im Katalogsystem von DNB vorgenommen wird, sollen das technische Einsammeln inkl. Qualitätskontrolle, die Speicherung (Hosting) und die Bereitstellung inkl. Volltextsuche durch einen Dienstleister durchgeführt werden.
Der Workflow soll folgende Schritte beinhalten:
1. Auswahl
Über ein Webinterface vom Dienstleister geben Mitarbeiter der DNB zu sammelnde Websites an (Seed-URLs) zusammen mit einem Titel, einer Kategorie und Basisparameter für den Crawl (Häufigkeit, Harvesting-Profil). Die zur Auswahl stehenden Kategorien müssen über das Webinterface verwaltbar sein. Ebenso muss eine Übersicht und Änderung der eingegebenen Daten möglich sein. Neben der manuellen Erfassung einzelner Websites über eine Maske muss auch ein technisches Interface zur automatisierten Übergabe aller nötigen Parameter für eine größere Anzahl von Sammelaufträgen vorhanden sein.
2. Metadatenübernahme
Die bei der Auswahl erfassten Daten werden von Seiten des Dienstleisters in einem automatischen Verfahren an eine Schnittstelle der DNB zur Übernahme in das Katalogsystem übergeben. Dabei müssen auch eindeutige Zugriffskennungen übermittelt werden.
3. Harvesting
Auf Seiten des Dienstleisters werden ein oder mehrere Crawler gestartet, welche alle ausgewählten Websites mit den konfigurierten Parametern in den vorbestimmten Zeitintervallen einsammeln.
4. Qualitätskontrolle
Der Dienstleister soll durch automatisierte und ggf. manuelle Verfahren die technische Qualität der Resultate des Harvesting überprüfen und falls dies dabei als nötig erkannt wurde mit veränderten Einstellungen das Harvesting erneut durchführen.
5. Bereitstellung
Die Daten werden von den Servern des Dienstleisters über eine gesicherte Verbindung exklusiv den Nutzern in den Lesesälen der DNB bereitgestellt. Dies erfolgt sowohl über ein Volltextsuchinterface beim Dienstleister, als auch über einen direkten Zugriff auf einzelne Websites aus dem Katalogsystem der DNB. Bei der Anzeige im Browser müssen die archivierten Webseiten durch ein Banner jeweils deutlich als Archivkopie der DNB gekennzeichnet sein. Die eigentlichen Webseiten sollen jedoch intern unverändert vorliegen.
6. Archivübermittlung
Der Dienstleister muss eine Schnittstelle zur Verfügung stellen, über die alle bisherigen für DNB gesammelten Daten an die DNB zur Archivierung übermittelt werden können. Die Daten müssen im ISO-Standard WARC vorliegen und eindeutig den vorher übermittelten Metadaten zuzuordnen sein. Das Hosting für die Bereitstellung ist von der Archivübermittlung unabhängig und wird vom Dienstleister für die Dauer des Vertragsverhältnisses für alle gesammelten Daten fortgesetzt.
Neben dem beschriebenen Workflow für ein selektives Harvesting ist die Deutsche Nationalbibliothek daran interessiert, in regelmäßigen Abständen (alle ein bis 2 Jahre) ein Domain-Harvesting der Top-Level-Domain .de von einem Dienstleister durchführen zu lassen. Die in den Schritten 5 und 6 zuvor beschriebenen Leistungen des Dienstleisters müssten auch für ein solches Domain-Harvesting erbracht werden. Ein Domain-Harvesting wird als optional angesehen.
Der Dienstleister soll die verwendeten Tools dem aktuellen Forschungsstand anpassen und neue Technologien insbesondere zur Effizienzsteigerung beim Harvesting und der Qualitätssicherung integrieren, sobald diese verfügbar sind. Bei technischer Machbarkeit könnte die Metadatenerfassung schon jetzt durch automatische Extraktionsverfahren ersetzt werden.
Der selektive Workflow muss für stetig ansteigende Mengen ausgelegt sein und das Angebot, insbesondere für das Hosting, die sprunghafte Zunahme durch die regelmäßigen Crawls und das Hinzukommen neuer Sammlungsbereiche berücksichtigen. Im ersten Jahr wird von einer Startmenge von ca. 840 Websites ausgegangen. Für die kommenden Jahre wird vorerst mit einer Zunahme von ca. 100 Websites pro Jahr gerechnet, wobei darüber hinaus eine Zusammenarbeit mit anderen Institutionen zur Bestimmung von weiteren Websites angestrebt wird, wodurch auch eine stärkere Zunahme möglich wäre. Das Angebot muss entsprechend flexibel gestaltet sein.
Der Dienstleister sollte Erfahrungen mit Webharvesting, Hosting und Bereitstellung in der vorgesehenen Größenordnung haben. Er sollte mindestens 2 Referenzkunden vorweisen können, mit denen bereits vergleichbare regelmäßig durchgeführte Workflows in diesem Umfang bestehen. Der Dienstleister hat Beschreibungen zum Vorgehen und Verfahren bei diesen Referenzkunden vorzulegen, aus denen die Vergleichbarkeit zum geforderten Workflow und Umfang hervorgeht.
Deadline
Die Frist für den Eingang der Angebote war 2011-10-03.
Die Ausschreibung wurde veröffentlicht am 2011-08-24.
Anbieter
Die folgenden Lieferanten werden in Vergabeentscheidungen oder anderen Beschaffungsunterlagen erwähnt:
Wer?
Wie?
Geschichte der Beschaffung
Datum |
Dokument |
2011-08-24
|
Auftragsbekanntmachung
|
2012-03-20
|
Bekanntmachung über vergebene Aufträge
|