L’écriture dans les jeux vidéo – 2 : La sophistication

La liste BNC COCA

En cherchant un peu sur internet et sur la richesse lexical je suis tombé sur la diversité qui a été calculé dans le précédent article dont le représentant le plus classique est le TTR


Mais aussi la sophistication lexical qui consiste à compter les mots peu courants d’un texte.
Pour cela on se base sur une liste de mots représentant à quel point un mot est courant. On peut trouver une telle liste ici :https://www.eapfoundation.com/vocab/general/bnccoca/
Elle se nomme la BNC COCA liste et les mots sont classés par fréquence (1k le + fréquent, 2k un peu moins fréquent jusqu’à 25k très rare et spécifique)
Il est ainsi possible de mesurer une certaine sophistication des textes en regardant s’ils possèdent des mots un peu moins fréquents que dans le top 1k (donc >= 2k)

L’indice calculé

L’indice proposé est :

(nombre de terme peu courant retrouvé)/racine(nombre terme total)

Un exemple de cet indice (CVS1) est donné ici (le texte 2 est bien mieux écrit que le texte 1) :

https://eli-data-mining-group.github.io/Pitt-ELI-Corpus/publications/Naismith_2019.pdf

Nous allons observer 3 niveaux de sophistication.

  • Le premier niveau sur des mots qu’on retrouvera souvent (> 1k)
  • Le second sera sur des mots moins fréquent (> 3k)
  • Le dernier sera sur les mots peu fréquent (> 9k)

On voit que selon a quel fréquence on regarde le classement change un peu et le nombre de terme récupérer diminue d’un facteur 10 entre > 1k et > 9 k .
POE 2 est premier mais perd sa place dès que les termes commencent à devenir très rare au profit de BG3 et ff 14.

CP2077 et NWN restent dans le bas du peloton sur toute les fréquences. Vraiment toutes?

Si on regarde les mots très très rare (on parle de moins de 70 mots sur 290 000) CP2077 est assez bien classé juste derrière ff 14.

Conclusion

Ce qui caractérise probablement le plus la sophistication d’un texte est l’un des trois premiers graphique et par conséquent les jeux ayant les texte les plus sophistiqués dans l’échantillon choisi sont POE 2, Disco Elysium, ff 14 et BG 3 .
Il est intéressant de voir que cela suit assez bien le TTR précédemment calculé néanmoins il est important de savoir que les données ont été récupéré de différentes source (jeu ou internet) que certains jeux possèdent uniquement des dialogues et que d’autres possèdent quelques descriptions aussi qui peuvent évidement jouer en leur faveur, et enfin qu’il est très délicat de bien contrôler toutes les variables et que des erreurs peuvent (et ont) été faites.

Laisser un commentaire