Com\’è dura la professione!

14 maggio 2008

Sembra facile dire nj…

Filed under: Programmazione — lbell @ 20:45
Tags: ,

Il corretto trattamento del testo nei programmi pone problemi di design ad applicazioni che a prima vista sembrano semplici, come i word processor. In Europa, senza scomodare le complessità delle scritture asiatiche, sono usati tre diversi alfabeti principali: latino, greco e cirillico. In alcuni Paesi, come nell’area della ex Jugoslavia, quello latino e cirillico coesistono, però non tutte le lettere dell’alfabeto cirillico hanno una corrispondenza in quello latino. Per assicurare l’interscambiabilità dei due alfabeti, le lettere dell’alfabeto cirillico usato in Serbia non presenti in quello latino sono stare tradotte facendo uso di digrammi, cioè di una sequenza di due lettere inseparabili che indicano un unico carattere, Љ viene tradotto con lj, Џ con dž e Њ con nj.

Il problema è che la forma maiuscola dei caratteri cirillici viene resa trasformando in maiuscolo entrambi i glifi latini, mentre quando la lettera si trova all’inizio di una frase, solo il primo glifo dei due va messo in maiuscolo.

In Unicode è stata creata una categoria speciale per questo tipo di lettere, chiamata “titlecase”; ad ogni digrafo sono assegnati tre distinti caratteri, uno per forma, minuscola maiuscola, capitalizzata. In dettaglio lj assume i valori U+01C9, U+01C8, U+01C7, nj U+01CC, U+01CB, U+01CA, dž U+01C6, U+01C5, U+01C4 e tutti si trovano nel blocco del Latin Extended B.

Un buon programma di word processing dovrebbe ovviamente conoscere queste regole che una persona normalmente applica senza nemmeno avere bisogno di pensare.

La gestione del testo nei programmi al di là della semplice memorizzazione, non è affatto un argomento semplice, dal momento che non può prescindere dalla conoscenza approfondita della cultura dei Paesi che impiegano o che hanno dato vita ad un determinato alfabeto.

Unicode Latin Extended B

http://it.wikipedia.org/wiki/Digramma

http://it.wikipedia.org/wiki/Lingua_serba

http://en.wikipedia.org/wiki/Titlecase

2 commenti »

  1. Accidenti LB, ti sei rimesso a fare sul serio col blog!
    Che sia il maggior tempo libero, o nuovi stimoli?
    Scommetto sulla seconda

    Commento di Pier — 14 maggio 2008 @ 23:39 | Rispondi

  2. Somehow i missed the point. Probably lost in translation🙂 Anyway … nice blog to visit.

    cheers, Emigrant.

    Commento di Emigrant — 19 giugno 2008 @ 4:55 | Rispondi


RSS feed for comments on this post. TrackBack URI

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

Crea un sito o un blog gratuitamente presso WordPress.com.

%d blogger cliccano Mi Piace per questo: