À Propos

Les origines du Trésor de la langue française

Les premières idées autour de la refonte du site du TLF datent des années 2000. Alors en poste dans une entreprise travaillant dans le domaine de l'édition électronique, il nous était apparu évident que faire un site internet présentant le contenu du TLF sous un meilleur jour était totalement faisable.

En s'inspirant des dictionnaires alors à la pointe tel OALD et Macmillan Dictionary, l'idée nous est venu de faire la même chose avec le TLF, mais de manière un peu indépendante.

L'idée est restée en friche jusqu'en juillet 2015, où tombant sur un article qui parlait du scraping (cette activité consiste ainsi à télécharger des pages d'internet pour en extraire les informations utiles pour les enrichir ensuite. Cette industrie grise de NTIC est une mine d'or pour certains de ces acteurs.) nous avons découvert le framework Scrapy, qui nous a alors semblé être le candidat idéal pour extraire les données du TLF. Après avoir tenté de joindre les équipes du TLF original qui n'ont jamais répondu, la décision a été prise d'extraire ces données de manière automatisée et les réutiliser même si ceci devenait de fait illégal en terme de propriété intellectuelle.

Télécharger les 49000 entrées principales du TLF fut une affaire assez délicate : le site original utilise des technologies rustiques et associe à cela un dispositif anti-harrassement qui empêche trop de requêtes. Au final, c'est en utilisant tor qu'elles seront téléchargées une première fois en intégralité, puis quelques autres fois afin de complétér le jeu de données.

Ensuite, une chaîne de traitement de données a été mise en place pour extraire les titres des entrées, construire un nom propre pour les URLs et fabriquer les entrées pour les sous-sens des définitions. Cette chaîne de traitement a été écrite en Clojure et permet de charger les json issus du scraping dans une base de données Elasticsearch.

Enfin, un site internet utilisant React pour la partie frontale, Racket pour la partie API, et un peu de Rust pour le moteur d'expansion des abbréviations et voilà le résultat.

Il existe encore beaucoup de problème dans le Trésor de la langue française, mais l'état actuel de fonctionnement de celui-ci est tout à fait acceptable.

Le trésor de la langue française aujourd'hui.

Aujourd'hui, le site représente environ 6000 lignes de code, pour un site qui héberge aujourd'hui une copie imparfaite du TLF.

Il reçoit environ 24000 visiteurs par mois et a généré 0 euro de revenus.

Les objectifs du trésor de la langue française

  • adresse des entrées permanentes et fiables
  • pas de limite dans la consultation des entrées
  • recherche en texte plein
  • auto-complétion des définitions et du texte plein
  • expansion d'une partie des abbréviations
  • feuille de style remaniée pour une lecture plus confortable
  • version mobile de l'affichage des entrées

Le tout sans pub !

quelques définitions tirées au hasard dans le dictionnaire : 

·le trésor de la langue française, un dictionnaire français·