Trond Trosterud, 1999
Bakgrunnen for dette notatet er at Samisk språkråd i lang tid har hatt problem med termbanken sin. I 1999 skreiv eg ei vurdering av problemet. Saka er dessverre framleis aktuell (hausten 2002), og for lettare å kunne referere til evalueringa mi, legg eg ho ut her. Sidene som blir evaluert er http://www.samisk-sr.no/, både presentasjonssidene og termbanken (Sátnevuorká)
Representasjonen av samiske teikn i språkrådet sine websider er eit samansurium.
Det brukast to kodetabellar om kvarandre (UCS og W2 (Levi, jf. Levi-kodetabell)), måten dei blir vist til på varierer, og skriveprogrammet er ikkje i stand til å tolke W2, slik at samiske teikn herfrå systematisk er feilaktig representert på sidene. Bruken av islandsk eth (ð) i staden for samisk d-stroke (d med strek over, đ) ser forsåvidt rett ut, men gjer det umogleg å søke på ord med đ i databasen.
Eksempel på dette:
Sida om substantiv:
Fonten som blir tilrådd brukt er Sam Helvetica W2. Likevel blir bokstaven s-caron representert som š, noko som er UCS-verdien (Unicodeverdien) til s-caron, og slett ikkje W2-verdien. W2-verdien til s-caron er š. Sitat:
<FONT SIZE=2 FACE="Sam Helvetica W2">leamaš
Rett skal vera rett, ein gang får Tromsdata denne bokstav rett: s-caron på framsida av dokumentet er og representert som #353, men denne gangen med UCS-font:
Sam Helvetica Uni">eaddi orgána Sámediggái ja eará almmolaš
Men s-caron er einaste lyspunkt på forsida. c-caron (č) blir representert som ", tilsynelatande eit mysterium. Grunnen til det er følgjande. I W2 ligg c-caron på posisjon x84 (desimal 132), i Microsofts 1252 ligg teiknet "#DOUBLE LOW-9 QUOTATION MARK" på, denne posisjonen. Editoren har trudd at č var eit hermeteikn, og representerer det som ". Sitat:
"Sam Helvetica W2">Go substantiivvaid sojaha, ferte geah""at ovtta dahje moadde dáin "uoggáin:</FONT>
Det skal sjølvsagt stå ... ferte geahččat ...
Førstesida (www.samisk-sr.no) er om mogleg enno verre:
Her er det vanskelev for å bestemme s seg om det skal vera USC ("Uni") eller W2 (Sam helvetica W2). Som sitatet viser vekslar det annankvar gang nedover i same tekst (!):
<TR VALIGN=top><TD WIDTH="378"><FONT FACE="Sam Helvetica Uni">Sámi
</FONT>
<FONT FACE="Sam Helvetica W2">giellará</FONT>
<FONT FACE="Sam Helvetica Uni">ð
</FONT>
<FONT FACE="Sam Helvetica Uni">ð</FONT>
<FONT FACE="Sam Helvetica W2">i</FONT>
<FONT FACE="Sam Helvetica Uni"> lea rá
</FONT>
<FONT SIZE=2 FACE="Sam Helvetica Uni">ð
</FONT>
<FONT SIZE=2 FACE="Sam Helvetica Uni">ð
</FONT>
<FONT FACE="Sam Helvetica Uni">eaddi orgána Sámediggái ja eará almmolaš orgánaide sámegiela áššiin Norggas. Sámi </FONT>
<FONT FACE="Sam Helvetica W2">giellará
</FONT>
<FONT FACE="Sam Helvetica Uni">ð
</FONT>
<FONT FACE="Sam Helvetica W2">i
</FONT>
<FONT FACE="Sam Helvetica Uni"> ovddasvástádus lea seailluhit, ovddidit ja nannet sámegiela.
</FONT>
Representasjonen av ein vanleg bokstav som d-stroke er heller ikkje lett. Førstesida har to ulike versjonar:
1. Sam Helvetica Uni">Sámi giellarᘘi<
Koden 732 viser til UCS Small Tilde. Dette er fordi d-stroke i W2 er lagt til same posisjon (#152, x94) som teiknet "Small Tilde" har i Microsoft sin W2-tabell. Editoren har altså nok ein gang berre tatt W2-input, trudd det var standard vesteuropeisk Microsoft cp 1252, og overført det blindt til UCS. Feilen er at utviklaren lokalt trur han kan "lure" maskina til å gje rett teikn med å forandre font men ikkje kodetabell. Html-editoren tar teksten bokstavleg, og overfører teiknet som ligg i Microsoft cp 1252-tabell til Unicode.
2. "Sam Helvetica Uni"><BR> Sámi giellaráðði
Her er feilen på ein måte spegelbiletet av det førre. Fonten skal vera Uni, men representasjonen er islandsk eth. Her har UCS og W2 same kodeposisjon, det er så og seie ikkje mogleg å gjere feil, så lenge mottakaren har ein font som les islandske bokstavar. Men samisk er det ikkje, og viss ein eventuell brukar søker etter eit ord med samisk d-stroke (t.d. "giellaráđđi"), vil basen ikkje returnere ordet "giellaráðði", i og med at det er skrive med ein islandsk og ikkje ein samisk bokstav. Vi som lesarar forstår kva som er meint, men datamaskinen vil ikkje vera i stand til å lesa det. Det er sjølvsagt mogleg å definere eit søkegrensesnitt slik at islandsk ð blir rekna som samisk đ, men systemet bør basere seg på at bokstavane blir brukt rett. I det heile er det ille at språkrådet legitimerer bruken av den islandske bokstaven i overskrifta på heimesidene sine, viss eit så prestisjetungt organ som samisk språkråd bruker ð må det jo vera "rett"?. Men konsekvensen av ein slik bruk er ubrukbare databaser: datamaskinene vil ikkje utan vidare vere i stand til å finne ord skrive med samisk d-stroke (đ).
På grunn av problema med koding av bokstavar er det her og der (sæ for bøyingsparadigmer i termbanken og grammatikkdelen) brukt gif-bilete i staden for vanleg tekst. Dessverre er heller ikkje dei riktige. Gif-bileta av bøyingsparadigma, t.d. for adjektiv, er skrive med Winsam men vist med vanleg Microsoft cp 1252. Vi får altså skrivemåtar som
çeahppi - çeahpit.
for čeahppi - čeahpit. Dette er ekstra ille fordi eit gif-bilete verkeleg kan kontrollerast av den som lagar sidene, eventuelle brukarar som måtte vera i tvil om kva bokstav som er rett har all grunn til å gå ut i frå at oppe i alt kaoset er det det som står på gif-biletet som verkeleg er rett, sjølv om alt anna skulle vise seg å vera feil.
Heile metoden med å skifte font kvar gang det kjem ein samisk bokstav i teksten er ikkje god. Det opnar nettopp for slik kaos som det vi ser her: ulike samiske bokstavar blir representert med ulike kodetabellar, og dermed ulike fontar (i og med at font og tabell er knytt til kvarandre). Den rette måten å gjere det på er å velje ei løysing, og halde seg til denne løysinga. Den universelle løysinga er å bruke Unicode-verdiar, og gjere det konsekvent. Alle andre representasjonar må dermed overførast til Unicode.
Det å få det til er verken vanskeleg eller alt for arbeidskrevjande. Ein person som er i stand til å skrive konverteringsskript må gå gjennom sidene, og overføre alle dei meir eller mindre fantasifulle variantane til Unicode-representasjon. Verre er det ikkje. Unicode-teikn kan representerast som sgml-entitetar, som peiker til nummerverdien på bokstavane (š for š, (slik det er gjort her) eller det er mogleg å bruke UTF-8-verdien direkte, slik som det er gjort t.d. på Bibelselskapet sine sider.
Konklusjonen på gjennomgangen av sidene er at stoda ser ut til å bli verre og verre for kvart mislykka forsøk Tromsdata gjer for å få det betre: Dei gamle feila står att, og dei nye kjem i tillegg. Eg ser ikkje lyst på det å bruke Tromsdata (eller som dei heiter i 2002: iTet) som konsulent for webtenester med slike arbeidsmetodar. Dette betyr ikkje at eg fråskriv Tromsdata all evne til å gjera noko riktig, det kan godt hende dei får dette til i framtida. Men skal dei komma så langt trengst ei litt anna innstilling enn den vi kan lesa ut av språkrådet sine sider slik dei framstår i dag.