Il corretto trattamento del testo nei programmi pone problemi di design ad applicazioni che a prima vista sembrano semplici, come i word processor. In Europa, senza scomodare le complessità delle scritture asiatiche, sono usati tre diversi alfabeti principali: latino, greco e cirillico. In alcuni Paesi, come nell’area della ex Jugoslavia, quello latino e cirillico coesistono, però non tutte le lettere dell’alfabeto cirillico hanno una corrispondenza in quello latino. Per assicurare l’interscambiabilità dei due alfabeti, le lettere dell’alfabeto cirillico usato in Serbia non presenti in quello latino sono stare tradotte facendo uso di digrammi, cioè di una sequenza di due lettere inseparabili che indicano un unico carattere, Љ viene tradotto con lj, Џ con dž e Њ con nj.
Il problema è che la forma maiuscola dei caratteri cirillici viene resa trasformando in maiuscolo entrambi i glifi latini, mentre quando la lettera si trova all’inizio di una frase, solo il primo glifo dei due va messo in maiuscolo.
In Unicode è stata creata una categoria speciale per questo tipo di lettere, chiamata “titlecase”; ad ogni digrafo sono assegnati tre distinti caratteri, uno per forma, minuscola maiuscola, capitalizzata. In dettaglio lj assume i valori U+01C9, U+01C8, U+01C7, nj U+01CC, U+01CB, U+01CA, dž U+01C6, U+01C5, U+01C4 e tutti si trovano nel blocco del Latin Extended B.
Un buon programma di word processing dovrebbe ovviamente conoscere queste regole che una persona normalmente applica senza nemmeno avere bisogno di pensare.
La gestione del testo nei programmi al di là della semplice memorizzazione, non è affatto un argomento semplice, dal momento che non può prescindere dalla conoscenza approfondita della cultura dei Paesi che impiegano o che hanno dato vita ad un determinato alfabeto.
http://it.wikipedia.org/wiki/Digramma
http://it.wikipedia.org/wiki/Lingua_serba
http://en.wikipedia.org/wiki/Titlecase

Accidenti LB, ti sei rimesso a fare sul serio col blog!
Che sia il maggior tempo libero, o nuovi stimoli?
Scommetto sulla seconda
Commento di Pier — 14 Maggio 2008 @ 23:39 |
Somehow i missed the point. Probably lost in translation
Anyway … nice blog to visit.
cheers, Emigrant.
Commento di Emigrant — 19 Giugno 2008 @ 4:55 |