Top-Level-Domain-Harvesting von „de“ für die Deutsche Nationalbibliothek
Die Deutsche Nationalbibliothek (DNB) hat den gesetzlichen Auftrag, Publikationen in deutschen Netzen zu sammeln, zu archivieren und bereitzustellen. Ziel ist es, zusammen mit einem Dienstleister eine Sammlung aller Webseiten mit Adresse im Bereich der Top-Level-Domain „de“ (TLD-DE) zu erreichen. Das technische Einsammeln, die Speicherung (Hosting) und die Bereitstellung inkl. Volltextsuche soll durch den Dienstleister durchgeführt werden. Aufgrund fehlender Erfahrung zum Umfang eines möglichst vollständigen Einsammelns soll zunächst nur ein Crawl durchgeführt werden. Die Auftraggeberin behält sich die Option auf bis zu zweimalige Verlängerung dieses Auftrags um jeweils einen weiteren Crawl vor.
Der Anbieter muss ausgehend von einer Einstiegsliste von URLs (Seeds) so viele Webseiten wie technisch möglich bzw. wie nachfolgend beschrieben mit einem Crawling-Verfahren sammeln, deren URL die TLD-DE enthält. Die Einstiegsliste soll vom Anbieter selbst gefunden (z. B. in Zusammenarbeit mit DENIC) und mit dem Ziel optimiert werden, die Erfassung der betroffenen Webseiten so vollständig wie möglich durchzuführen. Wie dies erfolgen wird, muss vom Anbieter dargelegt werden. Da keine genauen Erkenntnisse über den Umfang aller Webseiten innerhalb der TLD-DE existieren, kann die Durchführung in einer schrittweisen Annäherung erfolgen. Dies kann durch eine Beschränkung auf eine Speichermenge geschehen, bei dessen Erreichen der Crawl abgebrochen wird. Dies kann auch durch wiederholte experimentelle Crawls mit unterschiedlichen Parametern erfolgen. Ziel und vom Anbieter zu lieferndes Ergebnis muss jedoch ein möglichst umfassender Crawl der TLD-DE sein, sowie eine Abschätzung zum Umfang, der darin nicht erfassten Webseiten.
Für die Durchführung muss eigene Hard- und Software des Anbieters genutzt werden, wobei die Wahl der entsprechenden Infrastruktur und Programme dem Anbieter überlassen bleibt. Auch die Speicherung der Inhalte des Crawls muss auf den Servern des Anbieters erfolgen. Der Anbieter muss alle Inhalte des Crawls für eine Volltextsuche indexieren. Eine Zugriffsseite für die Volltextsuche und den Zugriff auf die gespeicherten Webseiten muss vom Anbieter bereitgestellt werden. Der Zugriff darauf mit einem Webbrowser (Internet Explorer, Firefox) darf ausschließlich von Rechnern in den Gebäuden der Deutschen Nationalbibliothek erfolgen, was vom Anbieter durch geeignete technische Maßnahmen sichergestellt werden muss (z. B. Beschränkung auf IP-Bereiche). Alle archivierten Webseiten müssen durch ein Banner, welches nach Vorgaben der Deutschen Nationalbibliothek gestaltet ist, beim Zugriff als Archiv gekennzeichnet sein. Die eigentlichen Webseiten sollen jedoch intern unverändert vorliegen. Die Gestaltung des Banners wird von DNB vorgegeben. Die Suchergebnisse müssen dem Nutzer nach Zeitschnitten getrennt aufgelistet werden. Darüber hinaus sollte der Dienstleister eine maschinelle Suchschnittstelle zur Volltextsuche über die eingesammelten Archivkopien bereitstellen. Empfehlung seitens der DNB ist eine SRU-Schnittstelle mit Unterstützung der Abfragesprache CQL, als Antwortformat sollte ein noch zu spezifizierendes bzw. auszuwählendes XML-Format dienen, das in jedem Fall die eindeutige Kennung der Zeitschnitte enthält. Die Bereitstellung des Crawls von den Servern des Anbieters für den Zugriff in der Deutschen Nationalbibliothek soll entsprechend der angebotenen jährlichen Kosten mehrere Jahre, mindestens aber 3 Jahre (Vertragslaufzeit), möglich sein. Zum Hosting gehört die Gewährleistung der Datenintegrität durch geeignete Maßnahmen durch den Dienstleister. Die Auftraggeberin behält sich die Option auf bis zu zweimalige Verlängerung dieses Auftrags um jeweils ein weiteres Jahr vor. Der Dienstleister muss eine Schnittstelle zur Verfügung stellen, über die alle bisherigen für DNB gesammelten Daten an die DNB zur Archivierung übermittelt werden können. Die Daten müssen im ISO-Standard WARC vorliegen. Insbesondere müssen die WARC-Daten alle beim Crawlen erfassten Records enthalten, aus denen auch statistische Rückschlüsse über Umleitungen, Fehler und andere HTTP-Meldungen möglich sind (Response Codes). Deren Auswertung ist jedoch nicht Gegenstand dieser Ausschreibung. Das Hosting für die Bereitstellung ist von der Archivübermittlung unabhängig und wird vom Dienstleister für die Dauer des Vertragsverhältnisses für alle gesammelten Daten fortgesetzt. Die erfassten Seiten sollen, wie es auch im WARC-Standard vorgesehen ist, unverändert und authentisch abgelegt werden. Dies bedeutet insbesondere, dass Links erhalten bleiben und erst beim Zugriff relativiert werden, um eine übergreifende Navigation zwischen Webarchiven zu ermöglichen. Das Angebot muss ein Konzept beschreiben, wie ausgehend von den Erkenntnissen des durchgeführten Crawls ein regelmäßiger Crawl alle zwei Jahre der TLD-DE durch den Anbieter erfolgen kann, für den die gleichen Bedingungen zur Bereitstellung gelten sollen. Dazu muss eine Preiskalkulation vorgelegt werden, die in Abhängigkeit zu den beim Crawl ermittelten Werten für den Umfang eines Crawls steht. Diese Preiskalkulation wird nicht bei der Preis-Bewertung des Angebots berücksichtigt, sondern bei der Bewertung des Konzepts für eine regelmäßige Durchführung. Der Anbieter muss nachweisen können, dass er mit der angebotenen Technologie bereits einen Crawl einer nationalen TLD oder einen Bulk-Crawl in ähnlichen Größenordnungen durchgeführt hat, wie sie für die TLD-DE zu erwarten sind. Das Angebot soll einen Festpreis für die Durchführung eines TLD-DE-Crawls gemäß der geforderten Arbeitsschritte enthalten, sowie einen jährlichen Preis für die Bereitstellung der Ergebnisse dieses Crawls (zunächst für drei Jahre). Dabei soll von einem nach realistischer Einschätzung des Anbieters zu erwartenden Speicherbedarf ausgegangen und zudem eine Kalkulation für darüber hinaus gehende Kosten bei höherem Speicherbedarf genannt werden.
Deadline
Die Frist für den Eingang der Angebote war 2013-11-19.
Die Ausschreibung wurde veröffentlicht am 2013-10-01.
Anbieter
Die folgenden Lieferanten werden in Vergabeentscheidungen oder anderen Beschaffungsunterlagen erwähnt:
Wer?
Wie?
Geschichte der Beschaffung
Datum |
Dokument |
2013-10-01
|
Auftragsbekanntmachung
|
2014-02-13
|
Bekanntmachung über vergebene Aufträge
|