Comment composer des textes multilingues?
La composition de textes multilingues se décompose en
plusieurs parties avec chacune leurs problèmes. En premier lieu
vient la saisie des documents. Ensuite vient une phase éventuelle
de transcodage, puis le traitement par
. Il faudra ajouter
la gestion des fontes de caractères avec leur codage qui est
différent pour l'éditeur et
et en final l'impression,
ou la conversion en un type différent de document comme
les documents
PDF
ou html
. Je parlerais surtout des
solutions Linux/Unix, car je n'ai ni Windows, ni Mac
…mais j'ajouterais ce que je trouverais sur le net pour ces
systèmes d'exploitation.
Comment éditer les textes multilingues?
La composition du texte se fait à l'aide d'un éditeur. Cet éditeur doit
permettre la saisie des caractères, glyphes des différents langages. Ce qui
me semble extrêmement important est que les caractères apparaissent
exactement comme ils doivent être imprimés et non comme une suite de
caractères sans signification (voir l'exemple de ArabTeX
donné dans
cette même section.)
Nous pouvons distinguer 2 cas:
\begin{itemize} % \item Le premier cas est celui de la saisie de deux langues différentes. Une des langues sera presque obligatoirement l'anglais (on pourra vérifier cas par cas si le français peut être la langue principale), et l'autre pourra être une langue comme une autre langue européenne, une langue à idéogramme ou autre. %
La saisie des langues européennes pourra se faire avec n'importe quel éditeur généraliste à condition de disposer des fontes de caractères correspondantes. En général, il ne sera possible de composer qu'en deux langues dont l'anglais si l'on n'utilise pas un éditeur utf8 ou spécialisé (Emacs-mule).
Pour ces langues «alphabétiques», il suffit de changer la disposition du clavier. Une applet est disponible dans le «panel», que ce soit pour Linux, mac ou Windows.
Sous Linux, il faut installer les fontes de caractères correspondantes, et configurer l'applet de changement de disposition de clavier (kde, gnome) ou installer un programme indépendant de commutation de claviers.
Sous Windows, il faut aller dans le panneau de configuration, et ajouter les langues voulues (clavier, fontes, et locales).
Sous Mac, la procédure doit être identique.
Il y a juste une correspondance touche clavier, caractère de la langue. Nous avons sur les ordinateurs vendus en France un clavier « azerty » qui dispose des caractères accentués.
Je dispose (personnellement) de claviers cyrilliques (russes) qui proposent deux gravures de lettres: en noir, le clavier se présente comme un clavier «qwerty» standard, et en lettres rouges, le clavier propose les lettres cyrilliques.
Des claviers spécifiques à chaque langue se trouvent sur internet, mais dans les deux dispositions de touches, il y a toujours l'anglais.
Pour l'utilisation du français et du russe, par exemple, il faudra se munir de deux claviers si l'on veut disposer de la disposition propre à chaque langue. Sous Linux, cela ne pose aucun problème. Pour Windows, merci de compléter.
Pour les langues comme l'hébreu ou l'arabe qui s'écrivent de droite à gauche, il existe des éditeurs spécialisés.
Voici quelques références d'éditeurs spécialisés pour l'hébreu, l'arabe et d'autres langues:
\begin{itemize}
\item he2
: pour l'hébreu et l'anglais :
\url{http://sourceforge.net/projects/he2};
\item heb
: pour l'hébreu et l'anglais.
\url{http://www.qumran.org/ftp/local/hebrew/wordfont/files.htm} Ce site recense de nombreux autres éditeurs commerciaux ou non, ainsi que des fontes et utilitaires;
\item Il faut bien sûr y ajouter les éditeurs généraux comme vim
et
''Emacs'' qui peuvent fournir des extensions spécifiques à certains langues.
\item Summisoft
: pour l'arabe \url{http://www.summitsoft.co.uk/}—
Windows---
\item axmedit
: pour l'arabe, le farsi, le coréen et l'hébreu
\url{http://www.langbox.com/arabic/axmedit.html} ---Linux---
% \item ?
ajouter ici d'autres références …
\end{itemize}
La saisie de textes en langue orientale (à idéogrammes) nécessite l'utilisation d'une « méthode de saisie ». En effet, le nombre très importants de glyphes de certaines langues asiatiques (chinois, japonais) ne permet pas d'associer une touche de clavier à chaque glyphe. Celle-ci consiste en un programme particulier qui se place entre le clavier et l'éditeur.
Ce programme capture les caractères saisis au clavier et suivant ce qui est tapé, propose un choix à partir d'une analyse phonétique, structurale, ou un mélange des deux méthodes. Ce programme s'aide de dictionnaires de mots, de dictionnaires de phrases qu'il est possible d'enrichir.
Je détaillerai un peu plus loin.
La société Suse, récemment rachetée par Novell propose un “HOWTO” (en
anglais) dédié aux langues asiatiques dites CJK, avec une description
précise de la configuration des différents systèmes
Linux. Il y a aussi une partie sur et tous les
logiciels associés: \url{http://www.suse.de/~mfabian/suse-cjk/}.
En mode «langue spéciale», la séquence de touches est transmise au programme de saisie spécifique qui la transforme en une chaîne de caractère dans la langue désirée.
Il y a une touche qui permet de passer d'une langue à l'autre (ou une combinaison de touches).
L'entrée pour les langues «CJK» se fait soit en mode phonétique “latin” ou translittération, soit en mode phonétique spécifique natif : Hiragana pour le japonais, Hangul pour le coréen, Zhuyin pour le chinois. Après saisie de la partie phonétique, s'il y a plusieurs possibilités, un choix est offert à l'utilisateur.
Voici quelques programmes qui se présentent sous la forme d'un serveur, d'un client, et de dictionnaires. Ceux-ci sont disponibles sur toutes les machines Linux ou Unix.
\begin{itemize}
\item xim
: http://www.opencjk.org/~yumj/project-chinput-e.html;
\item uim
;
\item kinput
;
\item xcin
;
\item canna
.
\end{itemize}
Sur les machines Windows, il faut aller dans Panneau-de-configuration–Options régionales et installer le chinois. Ne pas oublier d'ajouter les «locales» correspondantes. Vous pouvez ajouter le japonais par la même occasion. Ici, une page d'explications: \url{http://ccat.sas.upenn.edu/~nsivin/chinp.html}
Sur les machines Mac, il faut installer le «CLK» (Chinese Language Kit (CLK)). Voici une page en anglais pour les détails: \url{http://humanum.arts.cuhk.edu.hk/~cmc/power-mag/individual/chi-ho/}
\item Le deuxième cas est celui de la saisie de plusieurs langues très différentes: ici, il n'y aura pas le choix, il faudra saisir en codage utf8 et utiliser un éditeur qui le permette \vref{editeur-utf8}.
Il sera aussi possible d'éditer le texte avec des éditeurs comme
Emacs
et ses variantes qui utilisent un codage propriétaire.
Il est ensuite possible de transcoder le codage Emacs en utf-8 pour le
traitement par .
\end{itemize}
Qu'est-ce que le codage des textes?
Le Codage des textes est la représentation des
caractères sous forme de nombres ou suite de nombres.
Un des codages très connu est l'ASCII qui code les caractères sans accents
sur des nombres de 0 à 127 (7 bits).
Ce codage ne permet pas de représenter les caractères accentués utilisés dans la langue française. On a donc étendu le codage à 256 (sur 8 bits), et assigné les caractères régionaux aux nombres de 128 à 256.
Chaque pays a donc assigné ses caractères locaux et il y a donc des codages sur 8 bits différents pour chaque pays.
Les codages connus commencent par ISO-8859 plus un chiffre qui caractérise le pays (ISO-8859-1 pour le latin sans le signe euro).
Les codages ont été normalisés maintenant (norme ISO).
Pour les langues asiatiques qui n'utilisent pas un alphabet fini, mais des
idéogrammes, ce codage sur 8 bits est très insuffisant. Seuls 256 caractères
(glyphes) peuvent être codés. Ils ont donc codé leurs glyphes sur 2 octets, ce
qui permet de disposer de 65000 glyphes différents. Plusieurs codages
différents ont été utilisés pour la même langue, et sont utilisés
concurremment (suivant les machines, les régions, les habitudes, les programmes
utilisés), ce qui pose souvent le problème de la récupération des documents
quand des programmes utilisent un codage propriétaire et ne sont plus maintenus.
(voir déjà le problème du codage des langues asiatiques sur MacWord
(version 2 de Word
) qui ne permet pas de récupérer
les textes sur les nouveaux Macs avec la nouvelle version de Word
.)
Le codage sur 8 bits ne permet que l'emploi de 2 langues dont l'anglais, sauf dans les cas de langues extrêmement proches comme l'allemand et le français. Il est possible de coder les caractères et accents particuliers de ces deux langues sur les 128 nombres supplémentaires.
Pour pouvoir utiliser plusieurs langues très différentes simultanément, il faut utiliser l'unicode, qui permet de représenter toutes les langues. Le codage se fait sur plusieurs octets, et avec des codages différents (utf-8, utf-16 etc …)
Voir plus loin pour les détails.
Les programmes de saisie de textes «non utf-8» doivent donc pouvoir distinguer
le passage d'une langue à l'autre.
Ils utilisent pour cela soit le 8ème bit du nombre pour savoir si le caractère
est régional ou pas, ou utilisent un système de balises comme le fait .
Encore faut-il que ce balisage, codage soit documenté pour la pérennité des documents saisis.
Les éditeurs utf-8 utilisent le codage utf-8 pour représenter les glyphes, caractères, et ne nécessitent donc pas de balisage de changement de langue.
Qu'est-ce que le codage des polices de caractères?
Comme le codage des textes vu au-dessus, il a fallu représenter les
glyphes (dessins) des caractères sous forme de nombre (l'ordinateur ne travaille
qu'avec des nombres).
Il y a donc une correspondance (bijection …) entre le codage d'un caractère de texte, et son codage dans la fonte.
Il y a des quantités de codages, et utilise des codages particuliers
(il assigne les glyphes à sa façon). Il permet en plus d'utiliser des fontes
virtuelles qui sont composées de caractères piochés dans plusieurs polices.
Nous verrons plus loin comment expliquer à quel codage est utilisé
pour le texte, et quel codage est utilisé pour la fonte.
Comment traiter les textes précédemment saisis avec LaTeX?
Suivant le codage utilisé pour la saisie, il sera peut-être nécessaire de
procéder à un transcodage du texte. Par exemple, Emacs
utilise un
codage propriétaire (mais documenté ! c'est un logiciel GNU).
Il faudra configurer le codage de sauvegarde du texte pour qu'il soit
utilisable par . Soit utf-8 pour traitement par \OMEGA ou
UCS-LaTeX
, ou cjk pour traitement par CJK-LaTeX
.
Le paquetage babel permet de préciser le codage des textes avec l'option «inputenc». Il faudra en plus expliciter le «fontencoding» pour préciser le codage de la police utilisée. Ce paquetage permet de traiter de nombreux langages. Se reporter à la documentation de babel pour les langues disponibles.
Voici quelques exemples d'utilisation de babel, CJK-LaTeX
etc …
\begin{itemize}
\item{ Un exemple de [[ctanpkg>babel|babel]]: Le texte a été saisi avec ''gvim'' en utilisant ma locale par défaut (FR), et le codage est donc ISO-8859-1.
\documentclass{article} \usepackage[T1]{fontenc} \usepackage[latin1]{inputenc} \usepackage[frenchb]{babel} % Commentaire : fin du preambule \begin{document} \title{Titre de mon article} \author{Le Monsieur \and La Madame} \date{Le \today} \maketitle \begin{abstract} Résumé de mon article, passionnant. \end{abstract} \tableofcontents \section{Explications} \texttt{fontenc}, \texttt{inputenc} sont des packages permettant d'utiliser les accents. \texttt{babel} sert à franciser le document. \end{document}
} \item Un exemple de ''CJK-LaTeX'': Cet exemple a été saisi avec ''Emacs'' en utilisant la version ---mule--- qui permet de saisir des textes en multiples langues. Le codage interne est spécifique à ''Emacs'', mais il est possible de spécifier avec quel codage on veut que soit écrit le fichier sur le disque. Le texte <<chinese.tex>> a été reproduit tel quel (je ne comprends pas le chinois) et j'en ai seulement traduit la partie en anglais. Le texte a été traité par ''CJK-LaTeX'' et ''PDF-TeX''.
Il est difficile de montrer des exemples réels car cette FAQ est en langage national, et ne gère pas l'utf-8. Dommage \ldots ! Une solution serait d'inclure des images (exemples d'écran de travail), mais la taille de cette FAQ augmenterait d'une façon déraisonnable. Notez la première ligne du texte qui indique à ''Emacs'' la nature de le codage du texte.
%% -*- coding: emacs-mule -*- \documentclass[12pt]{article} \usepackage{times} \renewcommand{\baselinestretch}{1.2} \begin{document} \Large \begin{tabular}{l@{\hspace{5em}}l} texte en chinois \\ texte en chinois \\[\medskipamount] chinois traditionnel & chinois simplifié \\ chinois traditionnel & chinois simplifié \\ chinois traditionnel & chinois simplifié \\ chinois traditionnel & chinois simplifié \\ \end{tabular} \bigskip \normalsize \noindent Un poème de Li\v{u} Z\=ong (773--819), affiché sur la partie gauche en chinois traditionnel, et à droite en chinois simplifié. ''CJK-LaTeX'' s'interface parfaitement avec ''Emacs-mule'' de telle façon qu'il est possible de saisir et d'afficher différents types de fontes (Big5 pour les caractères traditionnels, et GB2312 pour les caractères simplifiés. Dans notre cas, c'est très utile, car le caractère \emph{\v{a}i} ne fait pas partie de la police GB2312. J'ai donc substitué le caractère correspondant de la fonte Big5. Le fichier a été exporté en utilisant la fonction \verb|cjk-write-file| fournie par le paquetage ''CJK-LaTeX'', et le résultat a été passé à ''PDF-LaTeX''. Ici, signature en chinois \ldots \end{document}
\item{Un exemple de ''IvriTeX'': Vous pourrez trouver des exemples dans la distribution de ''IvriTeX'' à l'URL suivante: \url{http://ivritex.sourceforge.net}. } \item{Un exemple de ''THAI-LaTeX'': Vous pourrez trouver des exemples dans la distribution ''THAI-LaTeX'' à l'URL suivante: \url{http://ichris.ws/latex} ou dans votre distribution Linux adorée \ldots Debian propose un paquetage <<thai-latex>>. Les exemples sont dans la section documentation. }
\item{Un exemple de ''UCS-LaTeX'': Le texte a été saisi avec ''gvim'' en mode utf-8.
\documentclass[french,8pts,a4paper]{article} \usepackage[notipa]{ucs} \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage[T3,T2A,T1]{autofe} \usepackage[greek,french,russian,english]{babel} \title{Un titre} \author{Auteur} % commande \frt pour écrire du texte français \newcommand\frt[1]{\foreignlanguage{french}{#1}} % commande \rut pour écrire en russe \newcommand\rut[1]{\foreignlanguage{russian}{#1}} % commande grt pour écrire du texte en grec \newcommand\grt[1]{\foreignlanguage{greek}{#1}} % commande \phot pour écrire du texte en alphabet %phonétique \newcommand\phot[1]{\bgroup\fontencoding{T3}% \selectfont\SetUnicodeOption{tipa}#1\egroup} \begin{document} \maketitle \tableofcontents \section{Je suis auteur de textes multilingues et de dictionnaires: comment faire ?} La composition de textes multilingues dans le cadre d'un traitement par \LaTeX doit se faire en ''UTF8''. En effet, c'est le seul moyen pour \ldots \frt{Russe:} Ici suit le texte en Unicode (russe) ... \rut{ texte en russe } \frt{Grec (en Polytonic)}: Ici suit le texte en grec: \grt{ texte en grec } \end{document}
}
\end{itemize}
Pouvez-vous donner plus de détails sur les méthodes de saisie?
les méthodes de saisie sont utilisées quand le nombre de glyphes
utilisés par la langue sont très supérieurs au nombre de touche d'un clavier.
Ces méthodes de saisie sont donc utilisées pour toutes les langues à
idéogrammes.
Le principe de saisie est le suivant: une fois l'éditeur mis dans le mode «langue à idéogrammes» l'appui d'une touche ne va pas donner un caractère, mais faire apparaître une fenêtre (menu) qui va proposer différents choix en fonction de ce qui a déjà été tapé. Il existe de nombreuses méthodes de saisie qui sont fondées soit sur la phonétique, soit sur la structure, soit une combinaison des deux, soit le codage direct des caractères.
Une bonne méthode de saisie doit se contenter d'un nombre réduit de touches, comme 26 touches par exemple. (disponibles sur des claviers occidentaux)
Voyons les méthodes de saisie suivant les langues:
Quelles sont les méthodes de saisie du chinois?
Je vais donner les informations trouvées sur le site:
\url{http://seba.ulyssis.org/thesis/im.php}, simplement
traduites car je ne suis en aucun cas un spécialiste des langues orientales.
\begin{itemize}
\item{Méthodes fondées sur la phonétique: \begin{itemize} \item{pinyin: c'est la méthode officielle des Nations Unies. elle utilise les caractères trouvés sur les claviers occidentaux en association avec le <<ton>>. Le <<ton>> est l'accentuation du mot. Cette méthode est assez verbeuse: zhong + guo or zhong1 + guo2 pour 2 glyphes originaux. Plutôt que de choisir les tons dans un menu, il est possible de préciser le ton avec un chiffre à la fin du son comme écrit ci-dessus. Sur la page citée juste au-dessus, vous pourrez trouver plus de détails sur le positionnement des <<tons>>.} \item{shuangpin: la méthode est dérivée de pinyin, mais avec une réduction sensible du nombre de touches à taper. En général, une ou deux touches suffisent.} \item{jianpin: cette méthode est intermédiaire entre les deux précédentes. Voici un tableau de comparaison entre les 3 méthodes pour les mêmes glyphes: \begin{tabular}{|c|c|c|c|} \hline Hanzi & Pinyin & ShuangPin & JianPin \\ \hline glyphe & a & a & a \\ glyphe & ku & ku & ku \\ glyphe & chu & uu & iu \\ glyphe & cuan & cc & cuj \\ glyphe & zhang & ag & ah \\ glyphe & shuang & ih & uuh \\ \hline \end{tabular}
}
\item{bopomofo: c'est une méthode développée en 1913 et modifiée de nombreuses fois ensuite. Elle est toujours d'actualité à Taïwan où elle est la méthode officielle d'apprentissage. La saisie est fondée sur des formes calligraphiques dont certaines sont dérivées de caractères d'origine chinoise. La méthode repose sur 37 symboles, 21 consonnes, 16 voyelles et 5 tons. Le grand désavantage de cette méthode est qu'elle nécessite un clavier spécifique, car les touches ne sont pas disponibles sur un clavier occidental.
}
\end{itemize} } \item{Méthodes fondées sur la structure:: \begin{itemize} \item{wubizixing: dans cette méthode, chaque glyphe peut être saisi par au plus 4 appuis de touches (2 au minimum). À chaque glyphe est associé une combinaison unique d'appui de touches. Cette méthode divise le radical en 5 groupes, eux-même divisés en 5 groupes. Ils sont assignés aux touches de A à Y. La touche Z sert d'échappement.
Voici un tableau de présentation:
\begin{tabular}{|c|c|c|c|c|c|} \hline & Key 1 & Key 2 & Key 3 & Key 4 & Key 5 \\ G1 & 1 1/G & 1 2/F & 1 3/D & 1 4/S & 1 5/A \\ G2 & 2 1/H & 2 2/J & 2 3/K & 2 4/L & 2 5/M \\ G3 & 3 1/T & 3 2/R & 3 3/E & 3 4/W & 3 5/Q \\ G4 & 4 1/Y & 4 2/U & 4 3/I & 4 4/O & 4 5/P \\ G5 & 5 1/N & 5 2/B & 5 3/V & 5 4/C & 5 5/X \\ \hline \end{tabular} } \item{wubihua: cette méthode utilise le pavé numérique (chiffre de 1 à 5 ; 6 est le caractère d'échappement. À chaque chiffre est associé une partie de base du glyphe; En fait, le dessin du glyphe est décomposé comme pour une écriture manuelle, et à chaque chiffre est associé un mouvement. La lettre T française peut être décomposée en une barre verticale et une horizontale. C'est le même principe. Il suffit d'entrer les 5 chiffres consécutifs de la constitution du glyphe suivi du caractère d'échappement (6). Voir le tableau de correspondance sur le site précité. } \item{cangjie: cette méthode divise 24 radicaux en 4 groupes assignés aux touches suivant cette liste:
La traduction est certainement approximative \ldots \begin{itemize} \item{groupe philosophique (A, B, C, D, E, F, G)} \item{groupe du trait de crayon (H, I, J, K, L, M, N)} \item{groupe des parties du corps (O, P, Q, R)} \item{groupe du contour du caractère(S, T, U, V, W, Y)} \end{itemize} } \item{sucheng: méthode dérivée de cangjie, mais avec une économie de touches à taper. } \item{boshiamy: méthode développée à Taïwan. Elle utilise les 26 touches du clavier. Elle tient compte de la forme du glyphe, de sa prononciation, et de sa signification. Chaque glyphe nécessite l'appui de 2 à 4 touches du clavier.} \item{dayi: cette méthode utilise toutes les touches disponibles du clavier, ce qui est un inconvénient. Seuls 2 appuis de touches sont nécessaires pour la saisie d'un glyphe.} \item{sanjiao: cette méthode <<des trois coins>> est dérivée de la méthode des 4 coins, utilisée pour la recherche de glyphes dans un dictionnaire.} \end{itemize} } \item{Méthodes fondées sur une combinaison phonétique--structure: Pas de détails trouvés. \begin{itemize} \item{tze-loi:} \item{renzhi:} \end{itemize} }
\item{Méthodes de saisie directe: Pas de détails trouvés. \begin{itemize} \item{dianbaoma:} \item{guojiquweima:} \item{neima:} \end{itemize} }
\end{itemize}
Quelles sont les méthodes de saisie du japonais?
La méthode de saisie du japonais est phonétique. On saisit phonétiquement en
caractères romains , et le programme qui supporte la méthode de saisie propose
le glyphe correspondant qui existe en trois versions: hiraganas, katakanas ou
kanjis.
Les informations suivantes ont été trouvées sur la page suivante: http://www.escale-japon.com/accueil.php?page=faq&select=faq
Le japonais utilise 3 systèmes d'écriture:
- Hiraganas: système syllabaire qui permet d'écrire les mots d'origine japonaise, et servent aussi de fonctions grammaticales (conjugaison).
- Katakanas: système syllabaire qui permet d'écrire les mots d'origine étrangère.
- Kanjis: système identique au chinois(idéogrammes) qui associe à chaque glyphe un mot, un sens sans aucune équivoque possible.
Voir cette page qui donne quelques informations supplémentaires: http://www.physics.wustl.edu/~alford/japanese_latex.html
Quelles sont les méthodes de saisie du russe?
Méthode de saisie du russe: (valable pour toutes les langues européennes, et
celles dérivées.)
C'est une méthode simple, car il y a correspondance directe entre les touches dessinées sur le clavier et le caractère correspondant.
Pour le russe, j'ai aussi vu une méthode de translittération qui traduisait
les suites de caractères romains en caractères cyrilliques (méthode phonétique).
Un tel mode est disponible dans yudit
.
Quelle est la méthode de saisie du grec?
La méthode est dérivée de la méthode de saisie simple, qui associe un caractère
à une touche. Le clavier peut ici se trouver en deux états: clavier romain
(latin) et clavier grec. Une touche (combinaison de touches) permet de commuter
d'un mode à l'autre. On utilise les touches mortes (de composition) pour certains
caractères.
Quelles sont les méthodes de saisie du coréen?
Il y a environ 8500 glyphes à saisir. On utilise 3 méthodes concurremment:
- ASCII: pour les caractères anglais.
- Hangul: les glyphes sont constitués d'une consonne suivie d'une voyelle avec une finale consonnique optionnelle. Il y a une vérification de la conformité du glyphe (son en cas d'erreur).
- Hanja: les glyphes Hanja ne peuvent être obtenus qu'à partir des glyphes Hangul. Il y a deux modes de conversion: simple et multiple. En cas de choix multiples, une liste est proposée.
Quelles sont les méthodes de saisie du vietnamien?
La méthode est dérivée de la méthode simple une touche pour un caractère,
mais modifiée pour supporter les particularités de la langue. elle vérifie
la conformité des caractères saisis. Il y a des «tons» qui sont appliqués à
certaines voyelles.
( a, e, i, o, u, y, a-circumflex, e-circumflex, o-circumflex, a-breve, o-horn,
or u-horn)
Pouvez-vous donner plus de détails sur Unicode?
Je vous renvoie aux sites suivants pour avoir plus de détails:
Il y a aussi des listes de diffusion consacrées à Unicode. Voir votre lecteur de «news» préféré, et chercher «Unicode».
Comment configurer la saisie des idéogrammes orientaux sur Windows?
Voir les détails d'installation et de configuration à
l'URL suivante: http://ccat.sas.upenn.edu/~nsivin/chinp.html
(en anglais).
Comment configurer la saisie des idéogrammes orientaux sur Mac?
Voir les détails d'installation et de configuration à
l'URL suivante: \url{http://www.yale.edu/chinesemac/pages/input_methods.html}.
Comment configurer la saisie des idéogrammes orientaux sur Linux/Unix}
Voici une liste d'URL qui vous donneront tous les détails
de configuration et d'installation des méthodes de saisie. Elles sont
disponibles sous forme de paquetages sur toutes les distributions.
- Voir le «debian chinese HOWTO» sur le site http://www.debian.org/
Quels sont les problèmes de codage des textes?
Maintenant que votre texte est saisi, vous voulez le traiter
avec
. Auparavant, il va falloir s'assurer que le codage de votre
texte sera accepté par
(problème déjà entrevu auparavant).
Vous avez plusieurs possibilités suivant l'éditeur utilisé.
\begin{itemize}
\item{Vous avez utilisé un éditeur utf-8: là, vous avez le choix d'utiliser soit ''UCS-LaTeX'', soit \OMEGA. Il faut savoir que toutes les langues ne sont pas supportées par ce programme. Une facilité est apportée par le paquetage optionnel \emph{autofe} de ''UCS-LaTeX'' qui permet de passer d'une langue à l'autre sans baliser le changement.} \item{Vous avez utilisé un éditeur utf-8 mais les langues que vous utilisez ne sont pas traitées par ''UCS-LaTeX'' ou \OMEGA. Il vous faut utiliser un convertisseur de codage comme ''iconv''. Voir dans le chapitre utilitaires pour d'autres programmes. Parfois, votre éditeur préféré vous permet de choisir le codage de sauvegarde du fichier, qui peut être différent de celui de la saisie. Voir ''Emacs'' par exemple. Vous transcoderez votre texte par exemple en codage CJK et traiterez le texte avec ''CJK-LaTeX''. Le principe est le même pour ''Ivritex'' ou ''THAI-LaTeX'' ou ''Arab-TeX''.} \item{Vous avez saisi votre texte avec un éditeur spécialisé, non utf-8, mais dont le codage est connu. Alors, soit l'éditeur permet de spécifier le codage de sauvegarde, soit il faut utiliser un convertisseur. } \item{Vous utilisez un éditeur <<propriétaire>> dont le format d'enregistrement n'est pas connu, qui ne dispose pas de facilité d'exportation vers un format utilisable, changez de programme... C'est inutilisable! (Qui a dit ''Word'') ??} %j'assume le dernier item ..........
\end{itemize}