unicode.tex 6.0 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768
  1. \documentclass[fontsize=11pt, paper=a4, DIV=classic]{scrartcl}
  2. \usepackage[french]{babel}
  3. \usepackage{fontspec}
  4. \setmainfont{Old Standard}
  5. %\usepackage{libertine}
  6. \usepackage{comment}
  7. \usepackage{csquotes}
  8. \usepackage[toc]{multitoc}
  9. \usepackage{graphicx}
  10. \usepackage{verse}
  11. \usepackage[french]{varioref}
  12. \usepackage{setspace}
  13. \onehalfspacing
  14. \subject{}
  15. \title{La saisie multilingue}
  16. \subtitle{}
  17. \author{Estelle Debouy}
  18. \date{}
  19. \usepackage{hyperref}
  20. \hypersetup{pdfstartview=FitH, backref, colorlinks=true,
  21. linkcolor=blue, urlcolor=blue, linktocpage=true}%la dernière option est liée à la toc sur deux colonnes.
  22. \usepackage[style=authortitle, backend=bibtex]{biblatex}
  23. \DefineBibliographyStrings{french}{byeditor={{é}d.}}
  24. \addbibresource{mabiblio.bib}
  25. \begin{document}
  26. \maketitle
  27. %\renewcommand{\contentsname}{Sommaire}
  28. %\tableofcontents
  29. Un texte dans une langue quelconque peut se décomposer en une suite de caractères. En français, les caractères sont les lettres, les chiffres, la ponctuation, les espaces. Le œ est un caractère à part entière, parce qu’il a une existence propre dans l’orthographe de la langue.
  30. Un fichier sur un ordinateur n’est ni plus ni moins qu’une suite d’octets, c’est-à-dire en quelque sorte des nombres entre 0 et 255. Toute la difficulté réside dans le fait de représenter une suite de caractères par une suite d’octets. Nous allons voir que ce n’est pas si simple.
  31. \section{Les premières solutions}
  32. Tout commence par une constatation très simple : les premiers informaticiens parlaient anglais. Et l’anglais s’écrit avec peu de chose : deux fois 26 lettres, 10 chiffres, une trentaine de signes de ponctuation, de signes mathématiques, sans oublier le symbole dollar : avec 95 caractères au total on peut se débrouiller. À l’époque dont je parle, on ne pouvait utiliser que la moitié des octets, soit 128 valeurs. On en a pris 33 comme caractères de « contrôle » (comme le retour à la ligne par exemple), plus les 95 dont on avait besoin pour écrire l’anglais. On a attribué des numéros à toutes ces valeurs : le code ASCII est né\footnote{Soit l’American Standard Code for Information Interchange (en français, le code américain normalisé pour l’échange d'informations).}.
  33. \includegraphics[scale=0.5]{images/ASCII-Table.png}
  34. Mais très vite on a aussi voulu saisir du français ou de l’allemand sur son ordinateur. Heureusement, entre temps, il était devenu possible d’utiliser les valeurs laissées de côté par l’ASCII. Dans cette place, il a été possible de caser les caractères accentués et divers autres symboles utilisés par les langues d’Europe de l’ouest. Dans ces 128 valeurs, il n’y a hélas pas la place de caser les caractères pour les langues occidentales et l’alphabet cyrillique et l’alphabet grec et l’alphabet hébreu.
  35. Pour pouvoir taper plusieurs langues sur un même ordinateur et pour que les ordinateurs puissent communiquer entre eux, des organismes de standardisation ont créé des tables de correspondance, comme l’ISO-8859-1, qui propose un jeu de caractères pour les langues occidentales, l’ISO-8859-5 qui offre du cyrillique, l’ISO-8859-7, qui propose du grec, etc. Mais, malgré tout, il n’a pas été possible de faire rentrer les 1945 idéogrammes du japonais officiel dans un octet, ni les 11 172 syllabes coréennes, ni les dizaines de milliers d’idéogrammes chinois qu’on arrive à recenser...
  36. \section{L’unicode}
  37. Pour résoudre durablement tous ces problèmes de langues, il s’est formé un consortium regroupant des grands noms de l’informatique et de la linguistique : le consortium Unicode. Sa tâche : recenser et numéroter tous les caractères existant dans toutes les langues du monde. Est donc né un jeu universel de caractères, acceptant plusieurs encodages\footnote{Unicode est basiquement un jeu de caractères (un ensemble de caractères auxquels on attribue à chacun un point de code unique) et non un encodage (façon de représenter ce point de code en mémoire). C’est ici que la distinction prend tout son sens. Auparavant, les deux se confondaient, puisque tous les jeux de caractères étaient associés à un encodage simple.}, l’unicode. En 2007, le standard publié comportait environ 60 000 caractères. Avec l’unicode, un texte dans n’importe quelle langue peut se représenter comme une suite de nombres. Quelle simplification ! L’un des encodages les plus utilisés est l’UTF-8 car il présente l’avantage d’être compatible avec l’ASCII, de sorte que les parties écrites avec l’alphabet latin de base d’un texte codé en UTF-8 seront à peu près lisibles même avec un logiciel qui ne comprend pas ce codage.
  38. Prenons, par exemple, le sigma majuscule : il a été encodé avec le point de code U+03A3:
  39. \includegraphics[scale=0.5]{images/unicode.png}
  40. Cela dit, comment faire pour saisir une citation en espagnol, chinois, arabe ou grec ancien au milieu d’un texte en français ? Il faut non seulement disposer d’une police unicode (comme Gentium), mais encore d’un clavier virtuel qui vous permet de savoir où se trouvent les caractères.
  41. Ainsi, pour être en mesure de saisir du texte dans une langue autre que le français, vous devez attribuer à votre clavier la langue de saisie souhaitée. Par exemple, pour taper οὐκ ἔλαβον πόλιν, vous devez configurer votre clavier de façon à saisir π quand vous tapez sur la touche P. Pour ce faire, il suffit de cliquer du droit sur l’icône FR (qui apparaît en bas de votre écran sur votre bureau), puis de choisir « Paramètres » et « Ajouter ». Si vous ne voyez pas l’icône en question, allez dans le panneau de configuration et choisissez « Horloge, langue et région ». Vous aurez alors la possibilité d’ajouter une langue.
  42. \includegraphics[scale=0.5]{images/clavier.png}
  43. Il vous est aussi possible d’utiliser des claviers virtuels en ligne, comme celui disponible à l’adresse suivante : \url{http://www.lexilogos.com/clavier/multilingue.htm}
  44. \end{document}