le portail de la science politique française
Responsables scientifiques :
Emma Bonutti D’Agostini (Sciences Po-médialab/CREST) emma.bonuttidagostini@ensae.fr
Etienne Ollion (CNRS/CREST-IPP) etienne.ollion@polytechnique.edu
Si l’IA se diffuse dans la société, elle est aussi employée de manière croissante dans les sciences. Que peut-on faire avec des outils d’intelligence artificielle dans nos disciplines, pour quels résultats, et avec quelles conséquences? Cette session thématique propose un tour d’horizon critique des outils disponibles, en se focalisant sur le cas l’analyse de contenu (texte, image et son). À travers une série d’exemples, présentés par des chercheuses et des chercheurs aux objets différents, on propose d’en montrer l’intérêt, les difficultés actuelles et les limites inhérentes à ces méthodes appelées à entrer dans la boîte à outil de nos disciplines.

Si l’IA se diffuse dans la société, elle est aussi employée de manière croissante dans les sciences. Dans le champ des sciences sociales, l’un des domaines les plus féconds pour en analyser les apports est celui de l’analyse de contenu, en raison des transformations notables qu’elle a connues ces dernières années. Que peut-on faire avec ces techniques en science politique, pour quels résultats et avec quelles conséquences ? Cette session propose un tour d’horizon critique de ces questions et des outils disponibles.
Après une présentation générale, on se concentrera sur les nouvelles techniques d’analyse de contenu, notamment celles fondées sur l’architecture des Transformers (Vaswani et al., 2017), qui ont profondément modifié la manière dont les corpus peuvent être analysés. Les outils qui en sont issus, qui ne se résument pas aux IA génératives, permettent d’analyser précisément, ainsi que de manière contrôlée et rapide, de vastes ensembles de données.
Les grands modèles de langages sont en première ligne parmi ces outils. Dans les sciences sociales, ils sont désormais fréquemment utilisés pour traiter des corpus très différents. Des analyses textuelles précises ont ainsi pu avoir lieu en prenant pour base des contenus aussi différents que les échanges sur des réseaux sociaux (Claesson, 2026); des résumés d’articles ou de thèse (Boelaert et al., 2025), des articles de presse (Courson et al., 2022), les programmes des partis politiques (Licht et Szepanski, 2024), des discours présidentiels (Bonikowski et al., 2022). Dans le domaine de l’image, les modèles récents de vision par ordinateur ont permis aux chercheuses en sciences sociales d’étudier des phénomènes divers comme l’action collective protestataire (Zhang et Pan, 2019), la diversité de genre dans les films (Bamman et al., 2024), la production visuelle d’acteurs politiques marginaux (Törnberg et Törnberg, 2025), ou encore les avatars sur les réseaux sociaux (Bryant, 2025). La même technologie sous-tend les modèles qui permettent de transcrire automatiquement des documents écrits manuellement (Constum et al., 2024), des enregistrements sonores (Litterer et al., 2025), ou d’explorer des contenus télévisuels (RSF, 2025).
Pour les chercheuses en sciences sociales, l’amélioration massive de la qualité des informations obtenues comme la rapidité d’exécution des nouveaux outils induisent un rapport différent au contenu. La principale conséquence est que ce dernier devient, sous conditions, analysable de manière à la fois exhaustive, précise, et vérifiable. Ce changement offre la possibilité de travailler des matériaux jusque-là analysés de manière parcellaire, voire parfois pas du tout du fait de l’ampleur de la tâche. Cet accès au contenu offre des opportunités importantes pour l’enquête en sciences sociales : analyser un corpus entier, et de manière granulaire, constituer une base de données, cartographier des modes d’expression, revisiter des enquêtes classiques… la liste est longue des tâches de l’analyse de contenu qui ont été modifiées par cette technologie.
Cette évolution n’est cependant pas sans contraintes, ni enjeux. Il faut d’abord des compétences techniques pour mettre en œuvre ces traitements. Et même en cas de succès, le coût économique et énergétique (Falk, 2024; Luccioni et al., 2024), les biais (Bender et al., 2021), les enjeux de protection des données, ou encore ceux liés à la réplicabilité (Barrie et al., 2025) rendent leur usage problématique à plus d’un titre. Ces difficultés varient aussi largement selon les approches mises en place. C’est que, derrière le terme trop générique d’intelligence artificielle, ce sont des systèmes divers qui peuvent être mis en œuvre, et qui renvoient eux-mêmes à des pratiques de recherche différentes les unes des autres.
Les interventions proposées dans le cadre de cette conversation méthodologique exploreront l’intérêt, pour la science politique, d’études mobilisant des outils d’analyse de contenu, y compris – sans s’y limiter – les grands modèles de langage, en soulignant à la fois leurs apports et les limites, tant ponctuelles que inhérentes, de ces approches.
If AI is spreading throughout society, it is also increasingly being used in the sciences. In the field of social sciences, one of the most fertile areas for examining its contributions is content analysis, given the notable transformations it has undergone in recent years. What can be done with these techniques in political science, for what results, and with what consequences? This session offers a critical overview of these questions and of the tools currently available.
After a general introduction, the focus will be on new content analysis techniques, particularly those based on the Transformer architecture (Vaswani et al., 2017), which have profoundly transformed the ways in which corpora can be analyzed. The tools derived from these models, which are not limited to generative AI, make it possible to analyze large datasets in a precise, controlled, and rapid manner.
Large language models are at the forefront of these tools. In the social sciences, they are now frequently used to process very diverse corpora. Precise textual analyses have thus been conducted on materials as varied as social media exchanges (Claesson, 2026), summaries of articles or dissertations (Boelaert et al., 2025), newspaper articles (Courson et al., 2022), political party platforms (Licht and Szepanski, 2024), and presidential speeches (Bonikowski et al., 2022). In the domain of images, recent computer vision models have enabled social scientists to study a wide range of phenomena, such as protest collective action (Zhang and Pan, 2019), gender diversity in films (Bamman et al., 2024), the visual production of marginal political actors (Törnberg and Törnberg, 2025), or avatars on social media (Bryant, 2025). The same technology underlies models that allow for the automatic transcription of handwritten documents (Constum et al., 2024), audio recordings (Litterer et al., 2025), or the exploration of television content (RSF, 2025).
For social science researchers, the substantial improvement in the quality of the information produced by these tools, combined with their increased speed of execution, has transformed their relationship to empirical content. The main consequence is that content becomes, under certain conditions, analyzable in an exhaustive, precise, and verifiable manner. This shift makes it possible to work with materials that were previously examined only in a fragmented way – or not at all – due to the scale of the task. Expanded access to content thus creates significant opportunities for social science research: analyzing entire corpora at a granular level, constructing databases, mapping modes of expression, and revisiting classic research designs. The range of content analysis tasks reshaped by these technologies is considerable.
This development, however, is not without constraints or challenges. Implementing such approaches requires specific technical expertise, and even when successfully deployed, they raise a number of concerns, including economic and energy costs (Falk, 2024; Luccioni et al., 2024), biases (Bender et al., 2021), issues related to data protection, and problems of replicability (Barrie et al., 2025). These challenges vary widely depending on the approaches adopted. This is why we should pluralize artificial intelligences: behind this generic label lie heterogeneous systems associated with markedly different research practices.
The contributions proposed in this methodological conversation will explore the relevance, for political science, of studies mobilizing content analysis tools, including – but not limited to – large language models, highlighting both their contributions and the limits, whether situational or inherent, of these approaches.
Références
Bamman, D., Samberg, R., So, R. J., & Zhou, N. 2024. Measuring diversity in Hollywood through the large-scale computational analysis of film. Proceedings of the National Academy of Sciences, 121(46).
Barrie, C., A. Palmer, & A. Spirling. 2024. “Replication for Language Models Problems, Principles, and Best Practice for Political Science.”
Bender, E. M., T. Gebru, A. McMillan-Major, & S. Shmitchell. 2021. “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜.” Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, 610–23.
Boelaert, J., Coavoux, S., Delaine, E. et al. 2025. “La Part Du Genre: Genre et Approche Intersectionnelle Dans Les Revues de Sciences Sociales Françaises Au XXIe Siècle.” Actes de la recherche en sciences sociales 258259(3–4): 126–45.
Bonikowski, B., Y. Luo, & O. Stuhler. 2022. “Politics as Usual? Measuring Populism, Nationalism, and Authoritarianism in US Presidential Campaigns (1952–2020) with Neural Language Models.” Sociological Methods & Research 51(4): 1721–87.
Bryant, J. C. 2025. “Front-Stage Politics: Visual Identity and Discourse on the Far Right.” The Sociological Quarterly, 1–22.
Claesson, A. 2026. “Le prix de la visibilité. Une analyse computationnelle des interactions en ligne avec des député.es français.” Revue française de science politique, à paraître.
Constum, T., Preel, L., Larcher, T., Paquet, T., Tranouez, P., & Brée, S. 2024. “End-to-end information extraction in handwritten documents: Understanding parish marriage records from 1880 to 1940.” International Conference on Document Analysis and Recognition, 195–214.
Do, S., Ollion, E. & Shen, R. 2024. “The Augmented Social Scientist: Using Sequential Transfer Learning to Annotate Millions of Texts with Human-Level Accuracy.” Sociological Methods & Research 53(3): 1167–200.
Falk, S., Ekchajzer, D., Pirson, T., Lees-Perasso, E., Wattiez, et al. 2025, “More than Carbon: Cradle-to-Grave environmental impacts of GenAI training on the Nvidia A100 GPU”, arxiv.
Gilardi, F., Alizadeh, M., & Kubli, M. 2023. “ChatGPT Outperforms Crowd Workers for Text-Annotation Tasks.” Proceedings of the National Academy of Sciences 120(30).
Litterer, B. R., Jurgens, D., & Card, D. 2025. “Mapping the podcast ecosystem with the structured podcast research corpus”. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, 25132-25154.
Luccioni, S., Jernite, Y., & Strubell, T. 2024. “Power Hungry Processing: Watts Driving the Cost of AI Deployment.” Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 85–99. https://doi.org/10.1145/3630106.3658542.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. 2017. Attention is all you need. Advances in neural information processing systems, 30.
Ollion, É, Shen, R., Macanovic, A., & Chatelain, A. 2024. “The Dangers of Using Proprietary LLMs for Research.” Nature Machine Intelligence 6(1): 4–5.
Zhang, H., & Pan, J. 2019. “Casm: A deep-learning approach for identifying collective action events with text and image data from social media.” Sociological Methodology 49(1): 1–57.
Reporters Sans Frontières. 2025. “Pluralisme en France : sur CNews, le grand contournement”. https://rsf.org/fr/pluralisme-en-france-sur-cnews-le-grand-contournement.

Etienne Ollion (CNRS), Comment les LLMs transforment l’analyse de contenu, et les sciences sociales
Emma Bonutti D’Agostini (CREST), Cinquante nuances d’autorité politique : une étude à grande échelle du discours rapporté dans le journalisme politique
Jeremy Ward (INSERM) et Senmiao Yang (CREST), Étudier l’émergence et la politisation des débats vaccinaux avec (et sans) l’IA
Noémie Piolat (Sciences Po), Pas sur la photo. Représentation visuelle descriptive et écarts de genre dans la communication visuelle des partis politiques

Bonutti D’Agostini Emma Emma.BONUTTIDAGOSTINI@ensae.fr
Ollion Etienne etienne.ollion@polytechnique.edu
Piolat Noémie noemie.piolat@sciencespo.fr
Ward Jeremy jeremy.ward@inserm.fr
Yang Senmiao senmiao.yang@polytechnique.edu