Le débat Royal-Sarkozy sous l’éclairage de la statistique lexicale

L’émergence de la société de l’information et de ses autoroutes numériques a mis à disposition du public des volumes importants de documents, ouvrant également de nouvelles perspectives aux chercheurs. Par exemple, le linguiste peut s’interroger sur les formes, expressions ou structures les plus fréquentes d’une langue ou, au contraire, déceler celles qui ont tendance à disparaître. S’appuyant sur la langue telle qu’elle est écrite et pas seulement sur sa grammaire ou son lexique, il en révèle les régularités ou les divergences entre locuteurs ou les variations d’emploi entre groupes sociaux.

Si l’ordinateur s’avère capable d’effectuer sans peine des travaux répétitifs, confions-lui une grande quantité de documents rédigés en français. Dans notre cas, nous lui avons confié un corpus composé de 85 793 dépêches de l’Agence Télégraphique Suisse complété par 91 659 articles du journal Le Monde. Infatigable compteur, notre ordinateur nous révèle que ce corpus comprend environ 60,5 millions de mots. Cependant, certains mots ont tendance à apparaître plus souvent que d’autres. Si l’on désire connaître la taille du vocabulaire utilisé, on comptera uniquement les formes différentes. Le lexique que l’on retirera de ce corpus journalistique sera composé de 324 913 formes distinctes, une valeur plus importante qu’un dictionnaire usuel comme le petit Larousse et ses 87 000 articles. Cette différence s’explique par la présence, dans notre corpus, de très nombreux noms propres et des inévitables fautes d’orthographe ou de frappe (comme par exemple, « Genvène » ou « Genvevois »).

Et les mots les plus fréquents ? Le français se caractérise par une abondance de « de », forme la plus fréquente correspondant même à 5,8 % des mots de notre corpus de presse. Nos journalistes écrivent un « de », en moyenne, tous les vingt mots. Parmi les neufs autres formes les plus usitées, on retrouve dans l’ordre « la », « le », « l », « les », « et », « des », « d », « en », « du ». Vue sous cet angle statistique, le français ne s’avère pas si complexe. En effet, si je considère uniquement ces dix formes les plus fréquentes issues de notre statistique lexicale, nous arrivons à couvrir environ 25 % du texte de tous les articles de presse. En d’autres termes, un mot sur quatre apparaissant dans un article correspond à l’une de ces dix formes. Traduisez ces dix mots en allemand et vous offrez la possibilité de « lire » 25 % des documents rédigés en français.

Le recours plus fréquent à un tel ensemble de mots plutôt qu’à un autre ouvre d’autres perspectives. Ainsi, on peut vérifier, avec un regard statistique, que Molière a bien écrit toutes ses pièces de théâtre ou si certaines d’entre elles seraient plutôt l’œuvre de Corneille. Comme ces derniers mois nous avons assisté à la campagne présidentielle française, nous avons choisi d’analyser les discours des deux principaux prétendants à l’Elysée pour savoir si leurs interventions se distinguent l’une de l’autre d’une part et, d’autre part, si les discours de campagne électorale divergent du français utilisé par les journalistes de l’ATS ou du Monde.

Dans ce but, nous avons récupéré 17 discours de Nicolas Sarkozy et 11 discours prononcés par Ségolène Royal. Au niveau de la richesse lexicale, la taille du vocabulaire utilisée par les deux protagonistes demeure assez similaire. Aucun ne peut prétendre offrir une variété lexicale plus abondante que l’autre. Ainsi, après avoir compté 10 000 mots, le nombre de formes différentes s’élève à 2 135 chez N. Sarkozy contre 2 306 auprès de la candidate socialiste. Le petit avantage de cette dernière s’estompe avec la prise en compte d’un plus grand nombre de mots. Après 50 000 mots, le vocabulaire du président qui sera élu s’élève à 6 172 contre 6 130 pour S. Royal. Finalement, après consultation de 90 000 formes dans leurs discours respectifs, le vocabulaire de la candidate s’avère légèrement supérieur (8 031 formes) à celui retenu par N. Sarkozy (7 970 formes).

En comparant les discours électoraux avec notre corpus journalistique, on constate que l’ampleur lexicale n’est pas une caractéristique dominante des prétendants à l’Elysée. Ainsi, après 90 000 formes, on dénombre 10 671 formes différentes dans nos articles de presse, soit une richesse lexicale supérieure de 33 % à celle des discours électoraux. Doit-on en conclure qu’une variété lexicale trop forte peut nuire à la compréhension ? Le politicien doit se faire comprendre, faire passer le message et le recours à un vocabulaire trop étoffé risque de présenter un obstacle.

On peut procéder à une deuxième analyse des discours politiques en consultant la liste des mots les plus fréquents. A nouveau, nous pouvons distinguer des différences notables entre les formes utilisées par les journalistes et celles des deux candidats à l’élection présidentielle. Ainsi, le dixième mot le plus fréquent chez S. Royal (ou le onzième chez N. Sarkozy) est le pronom « je », forme occupant seulement la 97^e place dans les articles de presse. Les formes complémentaires « j », « me » ou « moi » apparaissent également dans l’ensemble des cent formes les plus usitées dans les discours (plus précisément, la forme « moi » apparaît en 88^e position chez N. Sarkozy, en 94^e chez S. Royal et en 945^e dans le corpus de presse). L’homme (ou la femme) politique possède-t-il (-elle) un fort ego ou doit-il (-elle) convaincre et souligner ce que « je veux entreprendre » ?

De façon complémentaire, le pronom « nous » se retrouve en 17^e position chez S. Royal et en 30^e chez N. Sarkozy tandis que cette forme n’occupe que la 67^e place chez les journalistes. La même remarque se rencontre avec le pronom « vous » (20^e chez S. Royal, 41^e chez Sarkozy et seulement 225^e chez les journalistes). Abondance de pronoms, mais également de référence aux pays et bien sûr à la « France » (occupant la 25^e place chez S. Royal, la 27^e chez N. Sarkozy et la 74^e dans le corpus de presse). D’autres noms connaissent des positions très similaires chez les deux candidats comme « travail » (66^e position), « français », « politique » ou « république ». Par contre, les noms les plus fréquents dans notre corpus de presse sont dans l’ordre « ans » (52^e position), « francs » (61^e position), « président » (63^e position) suivi de « pays », « millions », « ministre » et « gouvernement ». On constate qu’il existe bien une démarcation nette entre les discours d’une part et, d’autre part, les articles de presse. Dès lors, peut-on inférer que les deux candidats disposent du même profil lexical ?

Si l’on analyse les formes les plus fréquentes chez S. Royal, on constate que le mot « femmes » apparaît en 80^e position tandis que « hommes » se situe seulement au 282^e rang. La situation s’inverse chez le candidat de l’UMP chez qui le mot « homme » apparaît avant (soit en 111^e position ou « hommes » en 164e) tandis que le mot « femmes » occupant seulement la 337^e place. Chacun défend-il son sexe ? D’autres noms comme « jeunes », « pacte », « Europe », « entreprises », « salariés » et « ensemble » caractérisent plutôt la candidate socialiste tandis que son adversaire favorise les noms « état », « culture » ou « enfants » mais surtout N. Sarkozy préfère l’emploi de verbes comme « peut », « faut », « veut » ou « parler ». Ce dernier verbe apparaît en 101^e position dans le vocabulaire du candidat de droite et seulement en 378^e chez S. Royal (ou en 998^e chez les journalistes). Etonnamment, le mot « sécurité » arrive avant chez S. Royal (123^e position) que chez N. Sarkozy (225^e place). Ce dernier utilisera par contre plus souvent le terme « identité » (126^e rang) que la candidate de gauche (1063^e rang). Pour quelques autres noms les rangs entre les deux candidats sont quelque peu différents ; ainsi le nom « emploi » apparaît en 103^e position chez S. Royal, en 161^echez N. Sarkozy et en 349^e chez les journalistes. Le terme « droit » suit aussi le même modèle (104^e, 140^e et 259^e). Par contre « histoire » apparait moins souvent chez la candidate de gauche (192^e) que chez Sarkozy (116^e ou 294^e dans le corpus de presse).

Enfin, nous pouvons examiner les séquences les plus fréquentes et composées de deux ou trois mots. Notre corpus de presse ainsi que les discours politiques contiennent plusieurs séquences identiques qui sont peu ou pas porteuses de sens précis comme « il y a », « et de la », « d’une », « c’est » ou « a-t-il ». D’autres enchaînements découlent de manière évidente de notre analyse des mots les plus fréquents tels que « la France », « la République » ou « la politique ». Par contre certaines énumérations appartiennent principalement au domaine de la presse comme « de l’Etat », « le premier ministre » ou « des affaires étrangères ». Dans les discours électoraux, on rencontre nettement plus souvent des négations comme « n’est pas » ou « ne peut pas » ainsi qu’une préférence plus marquée pour les tournures en « que je » ou « que nous » (cette dernière séquence est la 9^e séquence de deux mots la plus fréquente chez N. Sarkozy, la 36^e chez S. Royal et la 324^e chez les journalistes).

Les formes les plus fréquentes du français (sur la base d’un corpus comprenant 60 520 416 mots pour un vocabulaire de 324 913 formes différentes) On a également compté 129 163 hapax legomenon (soit un mot qui n’apparaît qu’une seule fois).

	mot	fréquence	fréquence relative	fréquence cumulée
1	de	3 537 188	5.845%	5.845%
2	la	1 996 946	3.300%	9.144%
3	le	1 532 669	2.532%	11.677%
4	l	1 492 646	2.466%	14.143%
5	les	1 244 806	2.057%	16.200%
6	et	1 094 467	1.808%	18.008%
7	des	1 092 917	1.806%	19.814%
8	d	1 020 002	1.685%	21.500%
9	en	901 791	1.490%	22.990%
10	du	798 659	1.320%	24.309%
11	a	789 553	1.305%	25.614%
12	un	746 015	1.233%	26.847%
13	une	633 236	1.046%	27.893%
14	est	530 217	0.876%	28.769%
15	dans	496 557	0.820%	29.589%
16	il	491 197	0.812%	30.401%
17	pour	476 060	0.787%	31.188%
18	que	453 257	0.749%	31.937%
19	au	427 679	0.707%	32.643%
20	par	416 632	0.688%	33.332%
21	qui	414 422	0.685%	34.016%
22	sur	335 352	0.554%	34.571%
23	pas	290 193	0.479%	35.050%
24	plus	257 744	0.426%	35.476%
25	s	255 705	0.423%	35.898%
26	ont	254 771	0.421%	36.319%
27	se	232 585	0.384%	36.704%
28	qu	232 296	0.384%	37.088%
29	n	226 284	0.374%	37.461%
30	ne	224 010	0.370%	37.832%

Le débat Royal-Sarkozy sous l’éclairage de la statistique lexicale

Jacques Savoy