Nouvelle recherche
    
formes lemmes
 

Analyse lexicale.

Les Mémoires de Saint-Simon comportent près de 14 millions de signes, environ 3,2 millions de mots, plus de 37 000 mots uniques qui correspondent à environ 14 000 lemmes. Ces statistiques portent uniquement sur le texte des Mémoires (édition Chéruel 1856) à l'exception de toute note.

Ce site permet de mener des recherches lexicales dans le texte des Mémoires de Saint-Simon (et, ultérieurement, dans d'autres corpus). On recherche soit une forme fléchie (par défaut) soit un "lemme" qui est la forme "cardinale" (par exemple, pour un verbe, le lemme est l'infinitif).

Le système répond en donnant cette forme (si elle existe) le ou les lemmes associés, le ou les types grammaticaux associés (par exemple, VER pour verbe, ADJ pour adjectif, etc.) et le nombre de fois où cette forme se rencontre dans le texte des Mémoires.

Nous avons utilisé pour les types la base de Lexique qui recense plus de 50 000 lemmes et plus de 120 000 formes fléchies. Malgré sa richesse, cette base n'est toutefois pas exhaustive: environ 3000 formes des Mémoires (hors noms propres) ne sont pas reconnues. Elles sont ici mentionnées comme type "INCONNU" et n'ont pas de lemme associé.

Cliquer sur le mot permet de rechercher ce mot dans le texte des Mémoires.

Options de recherche

  • il est possible d'utiliser des caractères génériques, en particulier l'astérisque et le point d'interrogation: chercher ba* revient à chercher tous les mots commençant par "ba" et b?t tous les mots de trois lettres commençant par b et finissant par t;
  • la recherche sur un lemme donne toutes les formes ayant ce lemme pour lemme; par exemple, rechercher aimer comme lemme donne toutes les formes de ce verbe dans le texte des Mémoires, alors que le rechercher seulement comme forme ne donne qu'un seul résultat;
  • il est possible de combiner une recherche sur plusieurs champs en tapant le nom du champ suivi de deux points et de la forme cherchée; par exemple, pour chercher les mots commençant par « a » et de type verbe, on peut taper dans la zone de recherche: a* type:ver qui donne toutes les formes verbales commençant par a;
  • la recherche n'est pas sensible aux accents, mais les mots stockés le sont avec leurs accents éventuels; par exemple, la recherche de la lettre « a » donne à la fois « a » (verbe avoir à la 3e personne du singulier) et « à » (conjonction);
  • la recherche de plusieurs mots ne donne jamais aucun résultat, parce qu'on recherche des termes individuellement et qu'une forme n'existe qu'une seule fois par définition; on peut si on le souhaite relier plusieurs termes par OR, par exemple: toujours jamais.

Limites

  • on ne s'intéresse qu'aux mots et non aux groupes de mots, par conséquent il n'est pas possible de distinguer la ville d'Orléans du duc d'Orléans;
  • de la même façon, les mots composés ne sont pas identifiés en tant que tels: par exemple, Saint-Germain-en-Laye est décomposé en quatre mots, dont aucun n'est conservé comme nom propre, car ces quatre mots existent chacun en tant que nom commun;
  • la plupart des confusions entre noms propres et noms communs homonymes n'ont pas pu être évitées;
  • dans certains cas, les formes "inconnues" résultent d'une erreur de transcrption; ces erreurs sont corrigées au fur et à mesure mais on nous obligera en nous les signalant.


 

Analyse lexicale - réalisation Medusis