Les accents dans les forums de discussion (news)
Franck.Perrot@epfl.ch, SIC
Introduction
Les équipements informatiques et les logiciels
(serveurs et clients) par lesquels transitent les messages des forums
de discussion (news) sont multiples et multi-plates-formes.
Certains sont récents, d'autres
vieux.
L'utilisation des accents sur Internet en général est
relativement récente. C'est pourquoi les comportements des
logiciels vis-à-vis des accents, des documents compatibles
aux standards MIME ou HTML diffèrent considérablement.
Bref historique
Historiquement les News, comme pratiquement tous
les autres logiciels, ne comprenaient que le codage des
caractères en 7 bits, lequel ne contient pas les lettres accentuées.
En outre, ils utilisaient l'alphabet US-ASCII. Celui-ci
représente sur 7 bits les caractéres suivants:
- 32 caractères de contrôle
- 26 lettres majuscules
- 26 lettres minuscules
- 10 chiffres
- 32 caractères de ponctuation, l'espace et une touche
d'effacement.
Le huitième bit de l'octet, n'est pas utilisé.
Aujourd'hui
La plupart des logiciels actuels permettent le codage
8 bits. Mais d'une part, beaucoup d'utilisateurs de part
le monde utilisent toujours les logiciels d'autrefois et
d'autre part les anglophones ne se préoccupent pas vraiment
des accents du fait que leur alphabet ne comporte pas de
caractères accentués.
Par ailleurs, le huitième bit était, et est parfois
encore, utilisé pour fiabiliser le transfert des données par contrôle
de la parité.
C'est pourquoi, beaucoup d'utilisateurs hésitent à
utiliser des caractères accentués puisqu'ils n'ont pas la
certitude que tous les destinataires peuvent les lire correctement.
Cette exigeance d'être compris par tous freine énormément
les dernières évolutions techniques introduites.
Un peu de Technique
Depuis 1996, MIME (Multipurpose Internet
Message Extensions), RFC 2045, est la recommandation utilisée
par la trés grande majorité des outils de communication
(News, Email...). Il décrit la nature d'un message Multimédia.
Un message peut ainsi être du texte, mais aussi de la vidéo,
du son, une image, etc. De même, un même message peut
comporté différents objets, chacun portant un attribut
MIME spécifique. Un texte comportant des caractères
accentués portera un attribut spécifique, un texte sans accents en
portera un autre.
Exemple simplifié d'en-tête de message MIME:
Date: Thu, 14 Mar 1999 14:52:41 +0200
From: Perrot franck
MIME-Version: 1.0
Newsgroups: epfl.test
Subject: Essai
Content-Type: text/plain; charset=iso-8859-1
Content-Transfer-Encoding: 8bit
On remarque dans cet exemple d'en-tête, mis à part
les champs Date:, From:, Newsgroups:, et Subject:, trois
autres champs qui définissent le format du message.
- MIME-Version: indique la norme, ici 1.0, à laquelle les
deux champs suivants sont tributaires.
- Content-Type: Spécifie la nature du contenu du
message, ici text/plain. Cela aurait pu être une image ou du
son. charset est un attribut de
text/plain indiquant l'alphabet utilisé dans ce texte. Ici,
iso-8859-1, est la référence
actuelle (iso-8859-15 devrait bientôt le supplanter) de
l'alphabet latin. On l'appelle parfois Latin-1. Cette
spécification de l'ISO code sur 8 bits tous les caractères
des langues latines. Au USA, on rencontre trés souvent
US-ASCII qui décrit l'alphabet américain, lequel
contient moins de 128 caractères comme nous l'avons vu
auparavant et peut donc être codé sur 7 bits.
- Content-Transfer-Encoding: Indique le codage utilisé
pour transférer le message. Comme nous l'avons vu au
préalable, certaines parties du réseau, mal configurées ou
utilisant des technologies anciennes, écrasent le 8ème
bit. Donc dès que l'on utilise un texte codé sur 8 bits, tel
que le fait l'emploi du champs charset iso-8859-1, il
faut obligatoirement spécifier un codage sur 8 bits pour
son transfert.
- Pour le transfert de texte accentué, deux types de
codage principaux existent:
- 8bits: le transfert se fera sur 8 bits, sauf l'en-tête
(les champs Subject, From et son commentaire,
To, CC et Bcc) qui lui est codé différemment (RFC
2047). Ainsi, si vous recevez un en-tête de type:
=?iso-8859-1?Q?=ED?=, c'est qu'il contient certainement un
ou plusieurs accents, ce qu'il faut éviter pour l'instant.
- QP: Quoted-Printable est un codage sur 7 bits des
caractères d'un alphabet 8 bits. Par exemple:
é est codé par =E9. Grâce à cette astuce, le 8ème bit peut
être écrasé sans aucun dommage. A la réception du
message, il suffit de décoder le QP pour le restituer
correctement. Aujourd'hui, le QP tend à être
remplacé par le 8bits car d'une part il pose des problèmes
à l'impression des messages ainsi qu'à leur
sauvegarde et d'autre part il augmente inutilement leur taille.
Ce que vous devez faire, si vous voulez être correctement lus de tous
Deux possibilités s'offrent à vous:
- utilisez Newsweb (
http://www.epfl.ch/newsweb/) qui vous permet d'utiliser (lire & écrire) les News depuis
WWW, sans avoir à configurer quoique ce soit;
- n'utilisez pas d'accents, ni d'image, ni
d'attachement mais seulement du texte pur code 7 bits, ceci dans
le header, le corps du message et dans votre
signature. Configurez votre client News de sorte qu'il n'utilise
ni MIME ni HTML (pas de couleur...).
Ce que vous devez faire, si vous voulez utiliser les caractères accentués
Pour les francophones en particulier ceci peut être
considéré comme un minimum. Suivez les règles suivantes
pour pouvoir être lu correctement par une majorité
d'utilisateurs (mais pas par tous). Vous devez configurer votre logiciel
News favori ainsi:
Règles générales
- jeu de caractères à utiliser (charset);
- iso-8859-1 (appelé aussi ISO latin 1, Alphabet
occidental ou encore Western); ou
- iso-8859-15 (appelé aussi ISO latin 9) qui tend
à remplacer le précédent;
- type de codage: 8 bits;
- ne pas utiliser: Quoted-Printable, Base 64,
HTML, multipart et autres;
- ne pas utiliser de VCard mais une signature en texte pur;
- par respect pour des utilisateurs qui utilisent certains
logiciels (en particulier Free Agent, trn3.6, NewsXpress
v2.0 et Gravity), ne pas utiliser de caractères accentués
dans l'en-tête (header) de votre article (subject (titre ou
objet), commentaire de l'adresse From: (appelé
souvent name ou real name...)
Réglages des clients principaux
Outlook Express sur PC
Il est très difficile de bien configurer ce client.
Malgré tout, c'est possible en suivant ces étapes (
http://www.citeweb. net/aminaute/forums/oeprespl.html
).
- Utilisez la dernière version (aujourd'hui 4.7);
- Tools/Options/Send/News sending
format=Plain text, puis cliquez sur Setting à droite de
Plain text
- Message format=MIME
- Encode text using=None
- allow 8 bit char in header=NON (ne pas cocher);
- Tools/Options/Send/Reply to messages using the
format in which they were sent=NON (ne pas cocher);
- Tools/Options/Read/Fonts=Western
Outlook Express sur MAC
- Utilisez la dernière version (aujourd'hui 4.5);
- Edition/Préférences/Comptes/News;
- nom du serveur=epflnews
- adresse du serveur=epflnews.epfl.ch
- afficher ce serveur de News dans la liste des
dossiers: OUI
- Edition/Préférences/Outlook Express/Messages
- composition du message/Format d'envoi
des News=Texte brut
- répondre aux messages en utilisant leur format
d'origine: NON (ne pas cocher)
- Edition/Préférences/Outlook Express/Polices
- polices pour=Europe occidentale
- jeu de caractères=Europe occidentale (ISO)
Netscape Communicator sur PC
- utilisez la dernière version (aujourd'hui 4.5);
- configurer le serveur et s'abonner aux newsgroups;
-
Edit/Preferences/Mail&Newsgroup/Newsgroup Servers/Add/Server=news;
- File/Subscribe/All/Newsgroup=epfl;
- cliquez sur le signe + à gauche de epfl pour ouvrir
le menu;
- abonnez-vous aux newsgroup de votre choix en
cliquant dans la colonne Subscribe (Ex: cliquez sur
le point à droite de epfl.general);
- cliquez sur OK.
- Edit/Preferences/Appearance/Fonts/Encoding=Western
- Edit/Preferences/Mail&Newsgroup/Messages:
Décocher la première case: By default, send HTML Messages;
-
Edit/Preferences/Mail&Newsgroup/Messages/More Options/Send 8 bits message=As is et «when
sending HTML»=Always convert into Plain text -> ca
marche sauf qu'il ne faut pas mettre d'accent dans le header.
Pour obtenir plus d'information sur l
a configuration de Netscape Communicator, voir l'adresse:
http://www.citeweb.net/aminaute/forums/netscape.html
.
Netscape Communicator sur MAC
- utilisez la dernière version (aujourd'hui 4.5);
- affichage/Encodage=Occidental (ISO-8859-1);
- modifier/Préférences/Polices/Pour l'encodage=Western;
- modifier/Préférences/Derniers messages;
- modifier/Préférences/Envoyer les messages utilisant
des caractères sur 8 bits=tels quels.
Pour les autres: voir le manuel spécifique de votre
logiciel, respectez les règles générales ci-dessus et priez pour
que vos correspondants aient bien configuré leur logiciel.
Comment tester votre configuration
- envoyez un message dans epfl.test dont le corps
contient des accents;
- allez dans le newsgroup epfl.test et lisez votre article;
- affichez entièrement l'en-tête:
- avec Netscape 4.x: View/Headers=All;
- avec Outlook Express 4.x: File/Properties/Details;
- Vérifiez que les champs suivants ressemblent à ceci:
- MIME-Version: 1.0;
- Content-Type: text/plain; charset=iso-8859-1;
- Content-Transfer-Encoding: 8bit;
- Vérifiez que les caractères accentués du corps de
l'article sont corrects.
Comment cerner un problème d'accent
- si vous voyez des caractères tels que: =E0, =F4 ->
impossibilité de décoder du QP ->
- vérifiez que votre logiciel est compatible MIME,
si ce n'est pas le cas changez le! (Netscape 4.5, Outlook
4.5 le sont par exemple);
- vérifiez également que les champs MIME dans
l'en-tête du message sont corrects, si ce n'est pas le cas,
avertissez l'émetteur (From) qu'il doit changer de logiciel! ;
- si vous voyez des caractères tels que:
* ou un carré -> vous ne lisez pas le message avec la bonne police. Se
reporter aux chapitres précédents pour configurer la
police de caractère avec iso-8859-1 (Western ou Latin-1);
- si vous ne voyez pas les caractères accentués: Changez
de police et utilisez iso-8859-1 (Western ou Latin-1);
- si vous voyez des caractères tels que:
? -> l'émetteur a sans doute converti un fichier Word au format texte
lequel transforme inopinément le caractère
' en caractère?.
Plus d'info