Aperçu

Big Data

Depuis le lancement du Programme national de recherche 75 en 2015, le thème des Big Data a largement trouvé sa place au sein de la recherche académique, que ce soit dans l’informatique, la physique ou encore les mathématiques. Les sciences économiques et les autres disciplines des sciences sociales s'y intéressent également depuis longtemps.

Dabei bleibt häufig unklar, was mit Big Data genau gemeint ist. Um sich dem Phänomen anzunähern, werden bei der Definition oft verschiedene Datentypen wie Administrativdaten, Transaktionsdaten oder Social-Media-Daten unterschieden. Zur Umschreibung von Big Data werden zudem häufig die «drei Vs» genannt: «Volume», «Velocity» und «Variety». Big-Data-Datensätze charakterisieren sich also durch ihr Volumen, das oftmals die Kapazitäten herkömmlicher Datenverarbeitung übersteigt, durch ihre teilweise hohe Umlaufgeschwindigkeit und durch ihre Varietät, die manchmal auch als unbearbeitet, chaotisch und überhaupt nicht in einer Form, die zur Analyse taugen würde, beschrieben wird.

La recherche doit avoir accès aux données

L'accès à des données de haute qualité a toujours été un facteur stratégique clé pour une recherche de qualité. Les collections de données résultant de la numérisation sont très précieuses pour la recherche, d’autant plus si elles peuvent être reliées.

Le rapport «Accessing and linking data for research in Switzerland» (2020) contient une première proposition concrète sur la manière dont le cadre institutionnel et juridique pourrait être conçu pour améliorer l'accès aux données et leur interconnexion. Le rapport constate :

  • Les institutions universitaires et les décideurs politiques doivent reconnaître la nécessité d'une stratégie commune, et les autorités politiques doivent élaborer et mettre en oeuvre un cadre institutionnel et juridique approprié pour l'accès des chercheurs aux données et leur interconnexion.
  • Cependant, les données publiques et privées sont souvent difficiles à utiliser pour la recherche. Des métadonnées et une documentation complète n'existent pas ou ne sont pas accessibles au public. L'accès aux données est compliqué ou est totalement refusé, et l'utilisation des données et leur appariement ne peuvent se faire que dans une mesure très limitée. Enfin, les chercheurs doivent souvent détruire les données à la fin des projets de recherche.
  • Le discours public contradictoire n'est pas non plus d'un grand secours. D'une part, il y a une demande politique pour un meilleur accès, en particulier aux données administratives, et d'autre part, il y a un besoin accru de protection des données.
  • Avec un cadre institutionnel et juridique à jour, il serait possible d'améliorer à la fois l'accès et la protection des données. Les institutions et les processus doivent être conçus de manière à ce que la tâche d’appariement des données soit autant que possible séparée de l'accès aux données couplées et de leur analyse et l'accès aux données hautement sensibles doit se faire dans un environnement sécurisé et restreint.

Big Data dans l'enseignement et la recherche

Die Tagung «Big Data in den Sozialwissenschaften», welche die SAGW im Herbst 2018 organisierte, fragte, wie es um das Versprechen von Big Data in den Sozialwissenschaften in der Schweiz stehe. Das Fazit: In einzelnen Bereichen haben sich neue datengetriebene Methoden etabliert. Zu nennen ist etwa die statistische Auswertung von grossen digitalen Textmengen («text as data»). Im Grossen und Ganzen aber wurde das Versprechen von Big Data noch nicht eingelöst, wie beispielsweise Lucas Leeman, Politologe und Mitgründer des Digital Democracy Lab an der Universität Zürich betonte. Es bestehe nach wie vor viel Potenzial für neue Forschungsfragen.

Qu’en est-il dans le contexte de l’enseignement ? Le rapport « Big Data in der Lehre in den Sozialwissenschaften » donne des indications claires à ce sujet. Celui-ci s’appuie sur une enquête en ligne menée auprès d’environ 400 collaboratrices et collaborateurs des universités et hautes écoles suisses œuvrant dans la recherche et dans l’enseignement en sciences sociales. Il montre que dans ce champ de disciplines et celles qui lui sont apparentées, les Big Data sont davantage utilisées dans le cadre de la recherche que dans celui de l’enseignement. Bien que leur intégration dans l’enseignement soit constaté, il apparaît qu’elles ne sont pas encore suffisamment institutionnalisées ni alignées sur les plans d’études.

Il est temps de démontrer la plus value des Big Data de même que la combinaison de différent types de données; et de thématiser d’autres modèles de recherche possibles. C’est ce que soulignent Markus Zürcher et Peter Farago dans leur introduction au rapport.