Overview
Schweizerische Akademie der Geistes- und Sozialwissenschaften

Neue Wege der Datenerhebung und -analyse – Die Kombination von Daten aus unterschiedlichen Quellen

Absage der Tagung

Aufgrund der gegenwärtigen epidemiologischen Situation sehen wir uns veranlasst, die hybride Veranstaltung «Big Data – Neue Wege in der Datenerhebung und -analyse» vom 29. Oktober 2020 abzusagen. Wir bedauern dies und entschuldigen uns für allfällige Inkonvenienzen.

In Zusammenarbeit mit den InitiantInnen werden wir diese wichtige Thematik in geeigneter Form und zu einem geeigneten Zeitpunkt nachholen.

Anmelden: Informationen zu «Big Data / Linked Data» erhalten

Big Data: Neue Wege der Datenerhebung und -analyse

Wie können Big Data mit den in der empirischen Sozialforschung vertrauten Datentypen so verbunden werden, dass wissenschaftliche Mehrwerte entstehen? Welche potentiellen Kombinationen sind wissenschaftlich sinnvoll? Unter welchen Voraussetzungen? Welche Rahmenbedingungen institutioneller, rechtlicher und finanzieller Art müssen gegeben sein? Was sind die praktischen Erfahrungen mit der Kombination und Analyse von Daten aus unterschiedlichen Quellen? Welche Perspektiven ergeben sich für die Zukunft?

An der Tagung suchen wir Antworten auf diese Fragen anhand von Best Practices. Beleuchtet werden die Voraussetzungen und konkrete Anwendungsbeispiele für die Kombination unterschiedlicher Daten.

Die Tagung wird mit einem Grundsatzreferat eröffnet, das einen Überblick über neue Wege der empirischen Sozialforschung dank Digitalisierung gibt. Präsentiert wird auch der Bericht  «Access and Linking Data in Switzerland», welcher im Hinblick auf die Tagung in Auftrag gegeben wurde. Am Schluss wird das weitere Vorgehen an einem Round Table diskutiert.

Die Tagung richtet sich sowohl an interessierte Forschende wie auch an Personen mit Führungsverantwortung aus Hochschulen, Forschungsförderungsinstitutionen, öffentlicher Verwaltung sowie aus privaten und öffentlichen datenproduzierenden Unternehmungen.

Die Referentinnen und Referenten: Abstracts

Michael Gerfin

Die Nutzung von administrativen Daten in der Gesundheitsökonomie

In diesem Vortrag illustriere ich die Nutzung von administrativen Daten in der Gesundheitsökonomie mit drei Beispielen. Die verwendeten Daten sind a) die Krankenhausstatistik und die medizinische Statistik der Krankenhäuser (BFS), b) individuelle Leistungsdaten einer grossen Krankenversicherung und c) der Daten- und Tarifpool der SASIS AG (Santesuisse). Die Daten wurden für folgende Analysen verwendet: 1) der Zusammenhang zwischen der Pflegepersonalausstattung und unerwünschten Ereignissen, z.B. Mortalität, (a), 2) die Auswirkung der Schliessung von Hausarztpraxen auf die betroffenen Patientinnen und Patienten (b, c), und 3) wie verändern Ärzte ihr Verschreibungsverhalten, wenn sie die Medikamente selber in der Praxis verkaufen dürfen und damit Geld verdienen können (b).

Ben Jann

Analyse der ökonomischen Situation von Haushalten und der Umverteilungseffekte des Wohlfahrtsstaates mit Hilfe verknüpfter Registerdaten

Steuerdaten bieten ein grosses Potential für die Ungleichheitsforschung, das in der Schweiz jedoch bislang nur unzureichend genutzt wurde. Dies liegt einerseits an datenschutzrechtlichen Hürden. Andererseits sind Steuerdaten erst in Verbindung mit anderen Datenquellen z.B. zu Haushaltsstrukturen oder zu weiteren, in den Steuerdaten nicht deklarierten Einkommensquellen für Ungleichheitsanalysen aussagekräftig. Im SNF-Projekt «Ungleichheit, Armutsrisiken und Wohlfahrtsstaat» wurde deshalb eine neue Datengrundlage geschaffen, die Steuerdaten mit weiteren Administrativ- und Befragungsdaten (wie Bevölkerungsstatistik, Strukturerhebungen, Sozialhilfestatistik, etc.) auf Personenebene verbindet. Die neue Datengrundlage erlaubt es, Ungleichheitsstrukturen in den in die Studie einbezogenen Kantonen aus einer umfassenden Perspektive zu analysieren. In dem Vortrag werden das Datenmodell sowie der etwas steinige Weg zu seiner Realisierung beschrieben und es werden erste inhaltlich Resultate aus dem Projekt präsentiert.

Ursina Kuhn

Einkommen und Vermögen in Befragungen: Neue Möglichkeiten und Erkenntnisse durch Kombination mit Registerdaten

Die Kombination von Register- und Befragungsdaten eröffnet viele neue Möglichkeiten für die sozialwissenschaftliche Forschung. Erstens vergrössert die Komplementarität der beiden Datentypen das Analysepotential. Zweitens kann die Qualität von Befragungsdaten durch Abgleich mit Registerdaten besser abgeschätzt und verbessert werden, zum Beispiel durch eine angepasste Gewichtung. Drittens könnten Befragungen in Zukunft vermehrt Fragen weglassen, die in Registerdaten enthalten sind und so die Ressourcen auf die komplementären Aspekte konzentrieren.

In meinem Beitrag fokussiere ich auf den ersten Aspekt und zeige anhand einer Analyse zu Frühpensionierung in der Schweiz, wie die Kombination von Befragungs- und Registerdaten neue Erkenntnisse ermöglicht. Während Befragungsdaten gut geeignet sind, um den Einfluss des Gesundheitsstatus, der Familiensituation oder der Arbeitssituation auf die Wahrscheinlichkeit einer Frühpensionierung zu untersuchen, liegen meist nur lückenhafte Informationen zu finanziellen Ressourcen vor. Demensprechend waren bisherige Resultate zum Einfluss des Einkommens auf den Pensionszeitpunkt widersprüchlich. Im Rahmen eines Forschungsprojekts des Schweizerischen Nationalfonds zu Vermögensungleichheit, haben wird die Daten der SILC-Befragung von 2015 mit dem AHV-Register (individuelle Konten) und verschiedenen Bevölkerungsregistern verknüpft, um Informationen zu den Einkommen in der Vergangenheit, zum Heiratsdatum und zum Geburtsjahr von Kindern hinzuzufügen. Auf dieser Basis konnten wir das Arbeitseinkommen vor der Pensionierung sowie die Höhe der Rentenansprüche in der 1. und 2. Säule der Personen in der Befragung schätzen. Unsere Analysen zeigen, dass Frühpensionierungen mit dem Einkommen zunehmen, da sich Personen mit einem niedrigen Einkommen eine Pensionierung nur selten leisten können. Sobald aber Vermögen und Rentenansprüche berücksichtigt werden, nehmen Frühpensionierungen mit steigendem Einkommen ab und das angesparte (Pensions-)vermögen wird zu einem zentralen Erklärungsfaktor für Frühpensionierungen. Ausserdem ermöglichen die Schätzungen zu Guthaben in der 1. und 2. Säule der Altersvorsorge eine differenziertere Sicht auf die Vermögensverteilung in der Schweiz als dies mit bisherigen Daten möglich war.

Georg Lutz

Datenzugang und Datenverlinkung: Der Bedarf der Wissenschaft

Im letzten Jahrzehnt hat sich die empirische Grundlage von Forschung grundlegend gewandelt. Lange Zeit basierte Forschung auf Daten, die speziell zur Gewinnung wissenschaftlicher Erkenntnisse erhoben wurden. Inzwischen werden immer häufiger Daten für Forschung genutzt, die durch die Digitalisierung vieler Arbeits- und Lebensbereiche anfallen.

Der Zugang zu qualitativ hochwertigen Daten ist seit jeher ein strategischer Schlüsselfaktor um hochstehende Forschung innerhalb der Verwaltung, von akademischen Institutionen und dem privaten Sektor voranzubringen. In der Verwaltung und im privaten Sektor gibt es viele Datensammlungen, die personenbezogene Daten enthalten. Während solche Datensammlungen oft für sich alleine interessant sind, werden sie noch wertvoller und informativer, wenn individuelle Merkmale verknüpft werden können. Verknüpfte Daten aus verschiedenen Quellen erhöhen die Genauigkeit, sie helfen Kosten sparen und sie verringern gleichzeitig die Belastung der Befragten.

Allerdings sind öffentliche und private Daten alles andere als FAIR (findable, accessible, inter-operable, reusable). Umfassende Metadaten und Dokumentationen existieren nicht oder sind nicht öffentlich zugänglich, der Datenzugang ist kompliziert oder wird ganz verweigert, und wenn die Daten überhaupt zugänglich sind, kann die Verwendung der Daten und die Verknüpfung der Daten nur in einem sehr eingeschränkten Rahmen erfolgen. Und am Ende müssen die Forscher die Daten oft wieder vernichten, was gegen Prinzipien der Reproduzierbarkeit wissenschaftlicher Ergebnisse verstösst. Diese Rahmenbedingungen müssen dringend verbessert werden.

Wenig hilfreich ist zudem ist auch der widersprüchliche öffentliche Diskurs. Auf der einen Seite gibt es eine politische Forderung nach einem besseren Zugang, insbesondere zu Verwaltungsdaten, auf der anderen Seite gibt es eine verstärkte Forderung nach mehr Datenschutz. Diese Diskussion wird nur selten gleichzeitig geführt. Nicht zuletzt die COVID19-Pandemie hat aufgezeigt, dass die Diskussion nicht lauten sollte, ob man Verwaltungs- und auch private Daten für Forschung zugänglich machen sollte, sondern wie man das am besten tut. Mit klaren rechtlichen und institutionellen Rahmenbedingungen ist es möglich, sowohl den Zugang als auch den Datenschutz gegenüber der jetzigen Situation zu verbessern. Konzepte dazu wurden im Rahmen von linkhub.ch erarbeitet und in einem Bericht, der im Auftrag der SAGW und Akademien Schweiz erstellt wurde, ausführlicher beschrieben.

Katharina Maag Merki

Analyse von Bildungsprozessen und Bildungskontexten unter Berücksichtigung multipler Forschungszugänge. Anforderungen und Herausforderungen

Ziel von Bildungsforschung ist der Aufbau von Wissen in Bezug auf das Beschreiben, Erklären und Beeinflussen von individuellen Bildungsprozesse in unterschiedlichen Bildungskontexten. Neben der Perspektive auf individuelle fachliche und überfachliche Kompetenzen, Motivationen oder Einstellungen von Kindern, Jugendlichen oder Erwachsenen sowie deren Entwicklungen im Lebenslauf stehen somit Fragen zu den Bedingungsfaktoren dieser Entwicklungen (z.B. individuelle, soziale, institutionelle, regionale oder systemische) sowie die Analyse kausaler Zusammenhänge im Fokus. Darüber hinaus interessieren Fragen zur Professionalisierung und Weiterentwicklung fachlicher Kompetenzen individueller und kollektiver Akteure sowie Fragen, wie formelle und informelle Lernkontexte systematisch aufgebaut und weiterentwickelt werden können.

Die Bearbeitung dieser Fragestellungen bedingt empirisches Datenmaterial, welches die Mehrebenenstruktur der Bildungskontexte valide abbilden kann. Dabei ist zu berücksichtigen, dass individuelle Bildungsprozesse einzig in Abhängigkeit sozialer, institutioneller, regionaler Einheiten (z.B. Unterrichtsklassen, Schulen, Bildungsregionen) verstanden werden können. Neben Daten auf Individualebene (z.B. Entwicklung von fachlichen Kompetenzen) interessieren somit insbesondere auch Daten auf Gruppenebene (in mehreren Hierarchiestufen), die in der Folge ebenenbezogen, aber auch in der ebenenübergreifenden Interaktionen untersucht werden müssen. Darüber hinaus sind Längsschnittdaten sowie Daten, die neben Selbstbeschreibungen performanznahe Entwicklungsprozesse sowie das Handeln der Akteure erfassbar machen, unabdingbar, um Antworten auf die oben formulierten Fragestellungen zu gewinnen.

Ausgehend von der Komplexität des Forschungsgegenstands im Bildungsbereich werden in diesem Beitrag Möglichkeiten und Grenzen der Kombination von unterschiedlichen Datentypen diskutiert und Anforderungen an eine zukünftige interdisziplinäre Forschungsinfrastruktur skizziert.

Kurt Schmidheiny

Auswirkungen des Corona-Lockdowns auf den Arbeitsmarkt in Echtzeit: Schweiz vs. Norwegen

Mit der Erklärung der «ausserordentlichen Lage» infolge der wachsenden Verbreitung des Corona Virus führte der Bundesrat am 16. März 2020 die Schweiz in einen Lockdown. Läden, Märkte, Restaurants, Bars wurden geschlossen ebenso wie Betriebe, in denen der geforderte Mindestabstand nicht eingehalten werden konnte. Die Löhne von Angestellten, die ihre Arbeit nicht oder nur beschränkt von zu Hause aus erledigen können, wurden durch das Instrument der Kurzarbeit vom Staat übernommen. Bis Ende April wurden von Unternehmen über 1,9 Mio. Anträge auf Kurzarbeit gestellt und damit jede/r dritte Erwerbstätige in der Schweiz auf Kurzarbeit gesetzt. In dieser ersten Phase der Coronakrise war es wichtig zu wissen, welche Regionen, Branchen und sozio-demographischen Personengruppen besonders von den Massnahmen betroffen wurden. Durch eine Kombination von Daten der Schweizerischen Arbeitskräfteerhebung und detaillierten Anforderungsprofilen von Berufen in den USA haben wir die Auswirkungen des Corona-Lockdowns in den ersten Wochen für die Schweiz abgeschätzt und mit den provisorischen aggregierten offiziellen Zahlen verglichen. Solche Abschätzungen sind jedoch zwangsläufig sehr ungenau. Erst die Analyse von Administrativdaten wie zum Beispiel individuellen Sozialversicherungskonten erlaubt die präzise Beschreibung der tatsächliche betroffenen Personengruppen und die Untersuchung der langfristigen Auswirkungen auf Karriereverläufe. Leider wird Kurzarbeit während der Coronakrise in der Schweiz von den Unternehmen nur summarisch abgerechnet. Es wird deshalb weder während der Krise noch danach möglich sein, die Auswirkungen auf einzelne Arbeitnehmer detailliert zu studieren. Ganz anders in Norwegen wo gleichzeitig wie in der Schweiz ein Lockdown angeordnet wurde. In Norwegen wird jeder einzelne Arbeitnehmer bei Beginn der Kurzarbeit der norwegischen Sozialbehörde gemeldet. Norwegische Sozialwissenschafter konnten schon in den ersten Wochen des Lockdowns auf diese Daten zugreifen und diese mit der gesamten Einkommensbiografie der Arbeitnehmenden und weiteren administrativen Daten verknüpfen. Damit kann in Norwegen bereits im Ablauf der Krise detailliert aufgezeigt werden, welche Bevölkerungsgruppen am Stärksten vom Lockdown betroffen werden. Es wird in Norwegen auch möglich sein, zu verfolgen wie sich die Krise in den nächsten Jahren auf die Betroffenen auswirken wird.

Adrian Spörri

Datalinkage mit Gesundheitsdaten – Chance oder Risiko?

Gesundheitsdaten sind meist Krankheitsdaten und daher sensitive Informationen über den Zustand von Personen in einer häufig schwierigen Lebenssituation. Diese Informationen sind zentral für die medizinische Forschung, zum Beispiel für die Untersuchung von neuen Medikamenten oder Behandlungsmethoden und werden meist in medizinischen Einrichtungen erhoben. Damit Gesundheitsdaten auch für die Versorgungsforschung, für die Qualitätssicherung und für ökonomische Analysen verwendet werden können, werden zusätzliche Informationen benötigt, welche in klinischen Studien meist fehlen, wie sozioökonomische Angaben, Wohn- oder Arbeitsort, Angaben zu Versicherungen und Kosten und so weiter.

Erst mit dem Verlinken von zusätzlichen medizinischen oder administrativen Daten mit klinischen Forschungsprojekten wird es möglich, Fragestellungen zu analysieren, welche im durch finanzielle, zeitliche und personelle Ressourcen begrenzten Rahmen einer kontrollierten klinischen Studie nicht möglich sind. Das Potential für die Forschung durch das Verlinken von Daten ist riesig. Zum Beispiel könnten mit Daten nach einer Behandlung in einem Spital auch später Forschungsprojekte durchgeführt werden, wenn Informationen zu weiteren Behandlungen in anderen Institutionen oder Informationen aus administrativen Registern wie dem Todesursachenregister vorhanden wären. Technische Entwicklungen in der Medizin generieren heute eine Flut von Daten, wie Labordaten, die für unterschiedliche Forschungsfragen benutzt werden können. Verlinken von Daten verhindert das erneute Generieren von Daten, welche schon vorhanden sind.

Die Risiken, welche durch das Verknüpfen von sensitiven Gesundheitsdaten mit anderen Datenquellen entstehen sind gross: Durch die Menge der Informationen sind vollständig anonymisierte Daten in der Zwischenzeit eine Illusion. Pseudonymisierte Daten benötigen einen hohen Aufwand für Datensicherheit und -schutz. Gesundheitsdaten sind nicht nur für die Forschung, sondern auch wirtschaftlich von Interesse.

Heute ist es nicht mehr die Frage, ob Gesundheitsdaten für Forschungszwecke verlinkt werden sollen. Wichtiger sind Fragen, wer wie, wann und wo Zugang zu verlinkten Gesundheitsdaten erhalten soll.

Sebastian Stier

Integrierte Erhebung und Analyse von Umfragen und digitalen Verhaltensdaten

Durch die alltägliche Nutzung digitaler Tools wie z.B. Smartphones oder soziale Netzwerkseiten produzieren BürgerInnen immer mehr Daten. Da Selbstauskünfte zur Nutzung digitaler Tools oft nicht verlässlich sind, greift die sozialwissenschaftliche Forschung vermehrt auf sogenannte digitale Verhaltensdaten zurück. Doch auch Studien, die solche «gefundenen» Daten beispielsweise über die Programmierschnittstellen von Twitter erheben, weisen i.d.R. erhebliche Limitationen auf, wie das Fehlen relevanter Kontextinformationen zu den Personen, die diese Daten generiert haben (z.B. zu Attributen und Einstellungen). Eine Möglichkeit, den Einschränkungen dieser beiden Datentypen zu begegnen, ist ihre Verknüpfung. Bislang gibt es allerdings nur vergleichsweise wenige Studien, die diesen Ansatz des Data Linking verfolgen. Ein zentraler Grund hierfür sind die forschungspraktischen und ethischen Herausforderungen, die damit einhergehen. Diese betreffen v.a. die Rekrutierung der TeilnehmerInnen, das Einholen einer informierten Einwilligung sowie den Datenschutz. Der Vortrag präsentiert zunächst eine Linking-Typologie, die konzeptualisiert, auf welcher Ebene (Individuen, Entitäten, Zeit) Umfragen und digitale Verhaltensdaten verbunden werden können. Zur Skizzierung der Potentiale und inhärenten Probleme konzentriert sich der Vortrag auf Beispiele aus dem Bereich der politischen Kommunikationsforschung.

Christof Wolf

Neue Wege der empirischen Sozialforschung dank Digitalisierung: Erhebung und Analyse digitaler Verhaltensdaten

Die stetig fortschreitende Digitalisierung aller Lebensbereiche verändert unsere Kommunikation, unser Lernen, Arbeiten, Reisen, den Konsum, die Unterhaltung, die Verbreitung von Information und auch unsere zwischenmenschlichen Beziehungen. Gesellschaftliche sowie politische Teilhabe finden in immer stärkerem Masse online und durch die Nutzung digitaler Endgeräte statt. Durch die Digitalisierung entstehen auch neue Phänomene wie Filterblasen, politische Polarisierung, Fake News, psychologische Auswirkungen sozialer Medien oder Hate Speech, die von grosser gesellschaftlicher und politischer Bedeutung sind. Gleichzeitig entsteht durch die Digitalisierung eine Fülle an digitalen Verhaltensdaten. Dies sind einerseits Daten aus Online-Umgebungen (z.B. Facebook, Twitter, Wikipedia, Reddit, YouTube, Nachrichtenportale oder digitale Marktplätze). Andererseits erzeugt die Nutzung digitaler Endgeräte (z.B. Smartphones, Tablets) ein breites Spektrum an Nutzungsdaten (z.B. Nutzungsdauer des Smartphones, Nutzung von Apps, Kontaktdaten, Browserverläufe, Positionsdaten), aber auch Multimediadaten (Text, Audio, Video, Bild), Angaben zur triaxialen Beschleunigung oder physiologische Messwerte. Diese Daten können soziale, gesellschaftliche, politische und wirtschaftliche Prozesse in vorher ungekannter zeitlicher und räumlicher Granularität abbilden. Sie erlauben es WissenschaftlerInnen, zum einen bestehende sozialwissenschaftliche Forschungsfragen mit neuen Daten und Methoden zu beforschen und zum anderen auch völlig neue Phänomene in der digitalisierten Gesellschaft effektiv messbar zu machen. Dabei bietet besonders die Verknüpfung von digitalen Verhaltensdaten mit Umfragedaten große Potentiale, weil sich die jeweiligen Vorteile ergänzen.

In dem Vortrag werden Vorschläge für sozialwissenschaftliche Ansätze zur Erhebung und Analyse digitaler Verhaltensdaten zur Diskussion gestellt. Dabei wird argumentiert, dass diese Art von Forschung in besonderem Masse auf effiziente Forschungsinfrastrukturen angewiesen ist.