Data Linking et Big Data

L’accès à de données de haute qualité est un facteur clé pour la recherche

L'accès à des données de haute qualité (« Data Access ») a toujours été un facteur clé pour une recherche de qualité. En particulier dans les sciences sociales, la collecte de données est souvent lente, coûteuse et sujette aux erreurs. La numérisation a créé et continue de créer de grandes collections de données dans l'administration publique. Ces données offrent un potentiel énorme pour l'étude des questions sociales, économiques et politiques : elles sont précises, détaillées et couvrent l'ensemble de la population, ce qui peut réduire de manière importante certains biais. Le secteur privé génère également de grandes quantités de données qui ouvriraient de nouvelles possibilités de recherche.

L’interconnexion de données dans les sciences sociales

De collections de données reliées provenant de différentes sources (« Data Linking »), notamment, recèlent un potentiel de recherche important. Par exemple, un registre des décès n'a en soi qu'une faible valeur analytique. Combinés aux données sur la situation sociale ou la santé des mêmes individus, il serait possible d’étudier les corrélations entre l'espérance de vie et de facteurs sociaux et sanitaires. C’est ce genre de données personnelles qui revêtent un intérêt particulier pour l’analyse de questions de sciences sociales. Comme elles concernent des personnes identifiables et sont souvent sensibles, la protection des données et de la vie privée doit être assurée de la meilleure manière possible.

En raison du cadre technologique, juridique et réglementaire insuffisamment défini, les chercheuses et chercheurs suisses ne sont guère en mesure d'exploiter le potentiel de ces données, qui sont de toute façon générées. Ainsi, l’ASSH préconise la création d'un cadre institutionnel favorable à la recherche pour l'accès aux données personnelles et l’interconnexion des collections de données.

Améliorer l'accès et l'interconnexion de données

Le rapport «Accessing and linking data for research in Switzerland» (2020) contient une première proposition concrète sur la manière dont le cadre institutionnel et juridique pourrait être conçu pour améliorer l'accès aux données et leur interconnexion. Le rapport constate :

  • Les institutions universitaires et les décideurs politiques doivent reconnaître la nécessité d'une stratégie commune, et les autorités politiques doivent élaborer et mettre en oeuvre un cadre institutionnel et juridique approprié pour l'accès des chercheurs aux données et leur interconnexion.

  • Les données publiques et privées sont souvent difficiles à utiliser pour la recherche. Des métadonnées et une documentation complète n'existent pas ou ne sont pas accessibles au public. L'accès aux données est compliqué ou est totalement refusé, et l'utilisation des données et leur appariement ne peuvent se faire que dans une mesure très limitée. Enfin, les chercheurs doivent souvent détruire les données à la fin des projets de recherche, ce qui limite fortement leur la reproductibilité.

  • Le discours public contradictoire n'est pas non plus d'un grand secours. D'une part, il y a une demande politique pour un meilleur accès, en particulier aux données administratives, et d'autre part, il y a un besoin accru de protection des données.

  • Avec un cadre institutionnel et juridique à jour, il serait possible d'améliorer à la fois l'accès et la protection des données. Les institutions et les processus doivent être conçus de manière à ce que la tâche d’interconnexion des données soit autant que possible séparée de l'accès aux données reliées et de leur analyse. L'accès aux données hautement sensibles doit se faire dans un environnement sécurisé et restreint.

« Big Data » dans les sciences sociales

Depuis le lancement du Programme national de recherche 75 en 2015, le thème de mégadonnés a largement trouvé sa place au sein de la recherche académique, que ce soit dans l’informatique, la physique ou encore les mathématiques. Depuis un certain temps déjà, les sciences économiques et les autres disciplines des sciences sociales s'y intéressent également.

Big Data : Application dans la recherche et l'enseignement?

Le colloque «Big Data in den Sozialwissenschaften», organisée par l'ASSH à l'automne 2018, s'est interrogée sur les promesses de « Big Data » dans les sciences sociales en Suisse. La conclusion était que de nouvelles méthodes basées sur les mégadonnées se sont établies dans les différents domaines. Un exemple est l'analyse statistique de grands volumes de texte numérique (« texte en tant que données »). Dans l'ensemble, cependant, la promesse de des mégadonnées n'a pas encore été satisfaite, comme l'a souligné Lucas Leeman, politologue et co-fondateur du Digital Democracy Lab de l'Université de Zurich. Il y a encore beaucoup de potentiel pour de nouvelles questions de recherche.

Qu’en est-il dans le contexte de l’enseignement universitaire ? Le rapport « Big Data in der Lehre in den Sozialwissenschaften » donne des indications claires à ce sujet. Il s’appuie sur une enquête en ligne menée auprès d’environ 400 collaboratrices et collaborateurs des universités et hautes écoles suisses travaillant dans la recherche et dans l’enseignement en sciences sociales. Il montre que dans ce champ de disciplines et celles qui lui sont apparentées, les mégadonnées sont davantage utilisées dans le cadre de la recherche que dans celui de l’enseignement. Bien que leur intégration dans l’enseignement soit constaté, il apparaît qu’elles ne sont pas encore suffisamment institutionnalisées ni alignées sur les plans d’études.

Il est temps de démontrer la plus value des mégadonnées de même que la combinaison de différent types de données; et de thématiser d’autres modèles de recherche possibles. C’est ce que soulignent Markus Zürcher et Peter Farago dans leur introduction au rapport.

Initiatives politiques sur l'accès et l'interconnexion de données