Université
de Neuchâtel
Logo UniNE
 
 
   UniNE > IIUN annuaire | plan du site | accès | contact  

Le débat Royal-Sarkozy sous l’éclairage de la statistique lexicale

Jacques Savoy

L’émergence de la société de l’information et de ses autoroutes numériques a mis à disposition du public des volumes importants de documents, ouvrant également de nouvelles perspectives aux chercheurs.  Par exemple, le linguiste peut s’interroger sur les formes, expressions ou structures les plus fréquentes d’une langue ou, au contraire, déceler celles qui ont tendance à disparaître.  S’appuyant sur la langue telle qu’elle est écrite et pas seulement sur sa grammaire ou son lexique, il en révèle les régularités ou les divergences entre locuteurs ou les variations d’emploi entre groupes sociaux. 

Si l’ordinateur s’avère capable d’effectuer sans peine des travaux répétitifs, confions-lui une grande quantité de documents rédigés en français.  Dans notre cas, nous lui avons confié un corpus composé de 85 793 dépêches de l’Agence Télégraphique Suisse complété par 91 659 articles du journal Le Monde.  Infatigable compteur, notre ordinateur nous révèle que ce corpus comprend environ 60,5 millions de mots.  Cependant, certains mots ont tendance à apparaître plus souvent que d’autres.  Si l’on désire connaître la taille du vocabulaire utilisé, on comptera uniquement les formes différentes.  Le lexique que l’on retirera de ce corpus journalistique sera composé de 324 913 formes distinctes, une valeur plus importante qu’un dictionnaire usuel comme le petit Larousse et ses 87 000 articles.  Cette différence s’explique par la présence, dans notre corpus, de très nombreux noms propres et des inévitables fautes d’orthographe ou de frappe (comme par exemple, « Genvène » ou « Genvevois »). 

Et les mots les plus fréquents ?  Le français se caractérise par une abondance de « de », forme la plus fréquente correspondant même à 5,8 % des mots de notre corpus de presse.  Nos journalistes écrivent un « de », en moyenne, tous les vingt mots.  Parmi les neufs autres formes les plus usitées, on retrouve dans l’ordre « la », « le », « l », « les », « et », « des », « d », « en », « du ».  Vue sous cet angle statistique, le français ne s’avère pas si complexe.  En effet, si je considère uniquement ces dix formes les plus fréquentes issues de notre statistique lexicale, nous arrivons à couvrir environ 25 % du texte de tous les articles de presse.  En d’autres termes, un mot sur quatre apparaissant dans un article correspond à l’une de ces dix formes.  Traduisez ces dix mots en allemand et vous offrez la possibilité de « lire » 25 % des documents rédigés en français. 

Le recours plus fréquent à un tel ensemble de mots plutôt qu’à un autre ouvre d’autres perspectives.  Ainsi, on peut vérifier, avec un regard statistique, que Molière a bien écrit toutes ses pièces de théâtre ou si certaines d’entre elles seraient plutôt l’œuvre de Corneille.  Comme ces derniers mois nous avons assisté à la campagne présidentielle française, nous avons choisi d’analyser les discours des deux principaux prétendants à l’Elysée pour savoir si leurs interventions se distinguent l’une de l’autre d’une part et, d’autre part, si les discours de campagne électorale divergent du français utilisé par les journalistes de l’ATS ou du Monde

Dans ce but, nous avons récupéré 17 discours de Nicolas Sarkozy et 11 discours prononcés par Ségolène Royal.  Au niveau de la richesse lexicale, la taille du vocabulaire utilisée par les deux protagonistes demeure assez similaire.  Aucun ne peut prétendre offrir une variété lexicale plus abondante que l’autre.  Ainsi, après avoir compté 10 000 mots, le nombre de formes différentes s’élève à 2 135 chez N. Sarkozy contre 2 306 auprès de la candidate socialiste.  Le petit avantage de cette dernière s’estompe avec la prise en compte d’un plus grand nombre de mots.  Après 50 000 mots, le vocabulaire du président qui sera élu s’élève à 6 172 contre 6 130 pour S. Royal.  Finalement, après consultation de 90 000 formes dans leurs discours respectifs, le vocabulaire de la candidate s’avère légèrement supérieur (8 031 formes) à celui retenu par N. Sarkozy (7 970 formes). 

En comparant les discours électoraux avec notre corpus journalistique, on constate que l’ampleur lexicale n’est pas une caractéristique dominante des prétendants à l’Elysée.  Ainsi, après 90 000 formes, on dénombre 10 671 formes différentes dans nos articles de presse, soit une richesse lexicale supérieure de 33 % à celle des discours électoraux.  Doit-on en conclure qu’une variété lexicale trop forte peut nuire à la compréhension ?  Le politicien doit se faire comprendre, faire passer le message et le recours à un vocabulaire trop étoffé risque de présenter un obstacle. 

On peut procéder à une deuxième analyse des discours politiques en consultant la liste des mots les plus fréquents.  A nouveau, nous pouvons distinguer des différences notables entre les formes utilisées par les journalistes et celles des deux candidats à l’élection présidentielle.  Ainsi, le dixième mot le plus fréquent chez S. Royal (ou le onzième chez N. Sarkozy) est le pronom « je », forme occupant seulement la 97e place dans les articles de presse.  Les formes complémentaires « j », « me » ou « moi » apparaissent également dans l’ensemble des cent formes les plus usitées dans les discours (plus précisément, la forme « moi » apparaît en 88e position chez N. Sarkozy, en 94e chez S. Royal et en 945e dans le corpus de presse).  L’homme (ou la femme) politique possède-t-il (-elle) un fort ego ou doit-il (-elle) convaincre et souligner ce que « je veux entreprendre » ?

De façon complémentaire, le pronom « nous » se retrouve en 17e position chez S. Royal et en 30e chez N. Sarkozy tandis que cette forme n’occupe que la 67e place chez les journalistes.  La même remarque se rencontre avec le pronom « vous » (20e chez S. Royal, 41e chez Sarkozy et seulement 225e chez les journalistes).  Abondance de pronoms, mais également de référence aux pays et bien sûr à la « France » (occupant la 25e place chez S. Royal, la 27e chez N. Sarkozy et la 74e dans le corpus de presse).  D’autres noms connaissent des positions très similaires chez les deux candidats comme « travail » (66e position), « français », « politique » ou « république ».  Par contre, les noms les plus fréquents dans notre corpus de presse sont dans l’ordre « ans » (52e position), « francs » (61e position), « président » (63e position) suivi de « pays », « millions », « ministre » et « gouvernement ».  On constate qu’il existe bien une démarcation nette entre les discours d’une part et, d’autre part, les articles de presse.  Dès lors, peut-on inférer que les deux candidats disposent du même profil lexical ? 

Si l’on analyse les formes les plus fréquentes chez S. Royal, on constate que le mot « femmes » apparaît en 80e position tandis que  « hommes » se situe seulement au 282e rang.  La situation s’inverse chez le candidat de l’UMP chez qui le mot « homme » apparaît avant (soit en 111e position ou « hommes » en 164e) tandis que le mot « femmes » occupant seulement la 337e place.  Chacun défend-il son sexe ?  D’autres noms comme « jeunes », « pacte », « Europe », « entreprises », « salariés » et « ensemble » caractérisent plutôt la candidate socialiste tandis que son adversaire favorise les noms « état », « culture » ou « enfants » mais surtout N. Sarkozy préfère l’emploi de verbes comme « peut », « faut », « veut » ou « parler ».  Ce dernier verbe apparaît en 101e position dans le vocabulaire du candidat de droite et seulement en 378e chez S. Royal (ou en 998e chez les journalistes).  Etonnamment, le mot « sécurité » arrive avant chez S. Royal (123e position) que chez N. Sarkozy (225e place).  Ce dernier utilisera par contre plus souvent le terme « identité » (126e rang) que la candidate de gauche (1063e rang).  Pour quelques autres noms les rangs entre les deux candidats sont quelque peu différents ;  ainsi le nom « emploi » apparaît en 103e position chez S. Royal, en 161e chez N. Sarkozy et en 349e chez les journalistes.  Le terme « droit » suit aussi le même modèle (104e, 140e et 259e).  Par contre « histoire » apparait moins souvent chez la candidate de gauche (192e) que chez Sarkozy (116e ou 294e dans le corpus de presse). 

Enfin, nous pouvons examiner les séquences les plus fréquentes et composées de deux ou trois mots.  Notre corpus de presse ainsi que les discours politiques contiennent plusieurs séquences identiques qui sont peu ou pas porteuses de sens précis comme « il y a », « et de la », « d’une », « c’est » ou « a-t-il ».  D’autres enchaînements découlent de manière évidente de notre analyse des mots les plus fréquents tels que « la France », « la République » ou « la politique ».  Par contre certaines énumérations appartiennent principalement au domaine de la presse comme « de l’Etat », « le premier ministre »  ou « des affaires étrangères ».  Dans les discours électoraux, on rencontre nettement plus souvent des négations comme « n’est pas » ou « ne peut pas » ainsi qu’une préférence plus marquée pour les tournures en « que je » ou « que nous » (cette dernière séquence est la 9e séquence de deux mots la plus fréquente chez N. Sarkozy, la 36e chez S. Royal et la 324e chez les journalistes). 

Finalement, on rencontre aussi des séquences typiques qui sont plus clairement attribuables à l’un ou l’autre des candidats.  Ainsi chez Ségolène on rencontre plus souvent les suites « une France qui », « la lutte contre », « je vous propose » ou « le pacte présidentiel ».  Dans les discours de N. Sarkozy, plusieurs formulations fréquentes se rencontrent au début de la phrase comme « Si je suis [élu] », « Je veux être », « Je veux que », « Parce que je » ou « Je veux dire ».  De son côté, la candidate de la gauche préfère les introductions comme « Et c’est », « C’est pourquoi » ou « Je ne veux ».

Référence

Sur le débat Corneille - Molière voir le site

Analyse des discours de J. Chirac (1995-2002)

Analyse des discours au Québec

Les formes les plus fréquentes du français (sur la base d’un corpus comprenant 60 520 416 mots pour un vocabulaire de 324 913 formes différentes)  On a également compté 129 163 hapax legomenon (soit un mot qui n’apparaît qu’une seule fois).

mot

fréquence

fréquence relative

fréquence
cumulée

1

de

3 537 188

5.845%

5.845%

2

la

1 996 946

3.300%

9.144%

3

le

1 532 669

2.532%

11.677%

4

l

1 492 646

2.466%

14.143%

5

les

1 244 806

2.057%

16.200%

6

et

1 094 467

1.808%

18.008%

7

des

1 092 917

1.806%

19.814%

8

d

1 020 002

1.685%

21.500%

9

en

901 791

1.490%

22.990%

10

du

798 659

1.320%

24.309%

11

a

789 553

1.305%

25.614%

12

un

746 015

1.233%

26.847%

13

une

633 236

1.046%

27.893%

14

est

530 217

0.876%

28.769%

15

dans

496 557

0.820%

29.589%

16

il

491 197

0.812%

30.401%

17

pour

476 060

0.787%

31.188%

18

que

453 257

0.749%

31.937%

19

au

427 679

0.707%

32.643%

20

par

416 632

0.688%

33.332%

21

qui

414 422

0.685%

34.016%

22

sur

335 352

0.554%

34.571%

23

pas

290 193

0.479%

35.050%

24

plus

257 744

0.426%

35.476%

25

s

255 705

0.423%

35.898%

26

ont

254 771

0.421%

36.319%

27

se

232 585

0.384%

36.704%

28

qu

232 296

0.384%

37.088%

29

n

226 284

0.374%

37.461%

30

ne

224 010

0.370%

37.832%


Prof. Jacques Savoy
Universite de Neuchatel
Computer Science Department
Rue Emile-Argand 11
CH-2009 Neuchâtel
Switzerland


+41 32 718 1375 (phone)
+41 32 718 2701 (fax)