Overview

Data Linking und Big Data

Hochwertige Daten sind ein Schlüsselfaktor für die Forschung

Der Zugang zu hochwertigen Daten (Data Access) ist seit jeher ein strategischer Schlüsselfaktor für qualitativ hochstehende Forschung. Gerade in den Sozialwissenschaften ist die Datenerhebung oft kostspielig, fehleranfällig und dauert lange. Durch Digitalisierung entstanden und entstehen grosse Datensammlungen bei der öffentlichen Verwaltung. Diese Daten bieten enormes Potenzial, um soziale, wirtschaftliche und politische Fragestellungen zu untersuchen: Sie sind genau, detailliert und betreffen die gesamte Bevölkerung, was entscheidende Verzerrungen in der datenbasierten Forschung ausschliesst. Auch bei privaten Organisationen fallen grosse Datenmengen an, die neue Forschungsmöglichkeiten eröffnen würden.

Data Linking in den Sozialwissenschaften

Besonders wertvoll für die Forschung sind verknüpfte Daten, die aus der Kombination mehrerer Datensammlungen aus unterschiedlichen Quellen entstehen (Data Linking). So hat ein Todesregister an sich wenig analytische Aussagekraft. Kombiniert mit Daten zur sozialen Lage oder Gesundheit derselben Individuen könnten Forschende Zusammenhänge zwischen Lebenserwartung und sozialen und gesundheitlichen Faktoren untersuchen. Für sozialwissenschaftliche Fragestellungen sind personenbezogene Daten – wie im genannten Beispiel – besonders wertvoll. Da sie bestimmte oder bestimmbare Individuen betreffen und oft sensibel sind, müssen Datenschutz und Privatsphärenschutz bestmöglich gewährleistet werden.

Aufgrund der unzureichend definierten technologischen, rechtlichen und regulatorischen Rahmenbedingungen können Forschende in der Schweiz das Potenzial dieser ohnehin anfallenden Daten kaum nutzen. Die SAGW setzt sich für die Schaffung eines forschungsfreundlichen institutionellen Rahmens für den Zugang zu personenbezogenen Daten und die Verknüpfung von Datensammlungen ein.

Zugang und Verknüpfung von Daten verbessern

Der Bericht «Accessing and linking data for research in Switzerland» (2020) enthält einen ersten konkreten Vorschlag, wie der institutionelle und rechtliche Rahmen gestaltet werden könnte, um den Datenzugriff und die Datenverknüpfung zu verbessern. Er hält fest:

  • Akademische Institutionen und politische Entscheidungsträger müssen die Notwendigkeit einer gemeinsamen Strategie erkennen, und die politischen Behörden sollten einen geeigneten institutionellen und rechtlichen Rahmen für den Zugang von Forschenden zu Daten und deren Verknüpfung entwickeln und umsetzen.
  • Öffentliche und private Daten sind oft nur schwer für die Forschung nutzbar. Umfassende Metadaten und Dokumentationen existieren nicht oder sind nicht öffentlich zugänglich, der Zugang zu den Daten ist kompliziert oder wird ganz verweigert, und die Nutzung der Daten und die Verknüpfung der Daten können nur in sehr begrenztem Umfang erfolgen. Am Ende müssen die Forscherinnen und Forscher die Daten oft wieder vernichten, was die Reproduziertbarkeit von Forschungsergebnissen verunmöglicht.
  • Der widersprüchliche öffentliche Diskurs verhindert Fortschritte. Datenschutz und Datenzugang werden getrennt diskutiert, obwohl sie eigentlich zusammengehören: Mit einem modernen institutionellen und rechtlichen Rahmen wäre es möglich, beides gleichzeitig zu verbessern. Institutionen und Prozesse müssen so gestaltet werden, dass die  Datenverknüpfung so weit wie möglich vom Zugang und der Analyse der verknüpften Daten abgekoppelt wird. Personenbezogene, sensitive Daten sollen besonderem Schutz unterliegen.

Big Data in den Sozialwissenschaften

Spätestens seit der Lancierung des Nationalen Forschungsprogramms 75 im Jahr 2015 hat das Thema zu Big Data in der Schweiz breitenwirksam Einzug in die akademische Forschung gehalten: In der Informatik, der Physik, der Mathematik. Auch die Wirtschaftswissenschaften und andere sozialwissenschaftlichen Disziplinen befassen sich längst damit.

Dabei bleibt häufig unklar, was mit Big Data genau gemeint ist. Um sich dem Phänomen anzunähern, werden bei der Definition oft verschiedene Datentypen wie Administrativdaten, Transaktionsdaten oder Social-Media-Daten unterschieden. Zur Umschreibung von Big Data werden zudem häufig die «drei Vs» genannt: «Volume», «Velocity» und «Variety». Big-Data-Datensätze charakterisieren sich also durch ihr Volumen, das oftmals die Kapazitäten herkömmlicher Datenverarbeitung übersteigt, durch ihre teilweise hohe Umlaufgeschwindigkeit und durch ihre Varietät, die manchmal auch als unbearbeitet, chaotisch und überhaupt nicht in einer Form, die zur Analyse taugen würde, beschrieben wird.

Big Data: Anwendung in Forschung und Lehre?

Die Tagung «Big Data in den Sozialwissenschaften», welche die SAGW im Herbst 2018 organisierte, fragte, wie es um das Versprechen von Big Data in den Sozialwissenschaften in der Schweiz stehe. Das Fazit: In einzelnen Bereichen haben sich neue datengetriebene Methoden durchaus etabliert. Zu nennen ist etwa die statistische Auswertung von grossen digitalen Textmengen («text as data»). Im Grossen und Ganzen aber wurde das Versprechen von Big Data noch nicht eingelöst, wie beispielsweise Lucas Leeman, Politologe und Mitgründer des Digital Democracy Lab an der Universität Zürich betonte. Es bestehe nach wie vor viel Potenzial für neue Forschungsfragen.

Wie sieht es in der Lehre aus? Der Bericht «Big Data in der Lehre in den Sozialwissenschaften» (2019) gibt klare Hinweise. Er basiert auf einer Online-Befragung von rund 400 Mitarbeiterinnen und Mitarbeitern an Schweizer Universitäten und Hochschulen, die in der sozialwissenschaftlichen Forschung und Lehre tätig sind: Er zeigt, dass in den Sozialwissenschaften und verwandten Disziplinen Big Data häufiger in der Forschung als in der Lehre Verwendung findet. In der Lehre ist Big Data zwar ebenfalls angekommen, jedoch nicht hinreichend institutionalisiert und wenig auf die akademischen Curricula abgestimmt.

Es sei an der Zeit, den Mehrwert von Big Data «aufzuzeigen sowie die Kombination von unterschiedlichen Datentypen und weiteren möglichen Forschungsdesigns zu thematisieren», schreiben Markus Zürcher und Peter Farago in der Einführung zum Bericht.

Politische Initiativen zum Zugang und der Verknüpfung von Daten