Une étude basée sur l’utilisation du mot data dans les articles scientifiques

Distribution au fil du texte de my/our data dans les 2 disciplines. Le référencement de la position de chaque occurrence dans le texte permet de faire une analyse de la présence du mot data au fil de l’article. Chaque position d’occurrence dans le texte est comprise entre 1 et 100%, la valeur 1% représentant le début du texte et la valeur 100% correspondant à la toute fin de l’article (jusqu’à la bibliographie).
Data est l’un des termes les plus utilisés dans le vocabulaire scientifique. Cet article de Frédérique Bordignon (École des Ponts, Marne-la-Vallée) et Marion Maisonobe (Géographie-cités, CNRS), publié dans Quantitative Science Studies, s’intéresse à la relation entre données et recherche en analysant les contextes d’occurrence du mot données dans un corpus de 72 471 articles de recherche (1980-2012) issus de deux domaines distincts (sciences sociales, sciences physiques).
L’objectif est d’éclairer les questions soulevées par la recherche sur les données, à savoir la difficulté de définir ce que l’on considère comme des données, les transformations que subissent les données au cours du processus de recherche et la manière dont elles prennent de la valeur pour les chercheurs qui les détiennent.
En s’appuyant sur la distribution des occurrences dans les textes et dans le temps, elle montre que le mot data apparaît surtout au début et à la fin des articles de recherche.
Les adjectifs et les verbes qui accompagnent le nom « données » s’avèrent être encore plus importants que les données elles-mêmes pour les spécifier. L’augmentation de l’utilisation des pronoms possessifs à la fin des articles révèle que les auteurs ont tendance à revendiquer la propriété de leurs données à la toute fin du processus de recherche.
Notre recherche démontre que même si les manipulations de données sont de plus en plus fréquentes, elles sont encore décrites avec des verbes imprécis qui ne reflètent pas la complexité de ces transformations. Le mot donnée sert de base rhétorique et puise son sens dans le contexte, en s’appuyant sur les propriétés véhiculées par les adjectifs et les verbes qui lui sont associés. Les adjectifs et les verbes qui accompagnent le substantif data s’avèrent même plus importants que le terme data lui-même pour préciser de quelles données il s’agit.
Une présentation en français de l’étude et de la méthodologie mise en place (utilisation de TXM) est disponible sur le carnet de recherche Carnet’IST administré par Frédérique Bordignon.