Kommentarar til rapporten "Samisk tegnsett og IT" frå Kommunal- og regionaldepartementet

Våren 2002 kom KRD med rapporten "Samisk tegnsett og IT". han ligg her. Det vart og arrangert ein konferanse om rapporten, i juni, jf. møtereferat frå konferansen. Dette dokumentet inneheld mine kommentarar til rapporten, kommentarar som og vart lagt til grunn for UiTø sine kommentarar til han.

Generell kommentar.

Rapporten inneheld ein god gjennomgang av lovar, reglar og internasjonale konvensjonar når det gjeld språklege rettar. Om språk og informasjonsteknologi er det ein del manglar. Rapporten utelet svært mange bruksområde for bruk av samiske språk (den mest alvorlege er at den manglande bruken av samiske teikn i folkeregisteret sine basar ikkje er kommentert), og han er og svært lite spesifikk når det gjeld identifisering av problem, og framlegg til løysingar på desse problema. I tillegg til samisk teiknsett, som tittelen lovar, drøftar rapporten tastaturstandardar. Andre sider ved lokalisering (t.d. sortering) blir ikkje tatt opp. Skildringa av status quo inne held og ein god del faktiske feil. Rapporten tar opp viktigheita av at Noreg involverer seg i standardiseringsarbeid på denne sektoren, men nemner ikkje det faktum at NTS (norsk IT-standardisering) meir eller mindre har lagt ned dette arbeidet i løpet av høyringsperioden). Det er med og gjer rapporten til ein papirrapport.

Som politisk dokument er rapporten for så vidt eigna til å slå fast kva som bør vere retningslinene. Dessverre er rapporten upresis når det gjeld skildringa av status quo og i beste fall vag når det gjeld framlegg til løysingar. Det ser ikkje ut til at dei som driv med samisk IT-standardisering har vore involvert i arbeidet med denne rapporten. Vi får håpe at dei kan bli inkludert i arbeidet med oppfølgjinga av han.

Kommentarar til sjølve teksten

1.1 Tekniske problemer

Rapporten refererer til at nordsamisk har tekniske problem med 7 bokstavar (det er eigentleg berre 6 av dei som er problematisk i datasamanheng). Det som og burde ha vore tatt opp er at også sør- og lulesamisk treng spesialløysingar, sjølv om problema her ikkje er like akutt som for nordsamisk. Sørsamisk bruker bokstaven •, og lulesamisk har to bokstavar som ikkje finst i det norske alfabetet. Den eine er á. Den andre bokstaven står for eng-lyden, og han har tidlegare vore skrive med n med akutt aksent. I og med at dette teiknet ikkje finst i vesteuropeiske 8-bits kodetabellar, har lulesamar ofte skrive –, i og for seg ei god løysing. Nyleg har lulesamisk språkråd gått inn for å bruke same bokstav som i nordsamisk, noko som inneber at også lulesamisk treng ei spesialløysing. Merk at det som står i fotnote 2 på s. 11 mao. ikkje er korrekt. Jf. http://www.evertype.com/alphabets/lule-sami.pdf og http://www.evertype.com/alphabets/southern-sami.pdf for korrekt informasjon.

Alle dei samiske språka har kvar si alfabetiseringsrutine, som skil seg frå alfabetiseringsrutina i norsk. Det er mogleg å lage ein sorteringsstreng som tar opp i seg alle dei samiske språka (jf. http://www.hum.uit.no/a/trond/loc.html), men denne alfabetiseringsrutina må implementerast for å kunne vere til nytte, t.d. i offentlege register. I og med at norsk sortering er eit undersett av sorteringsstrengen vist til her, er det ikkje noko i vegen for at han kan ligge til grunn for sortering av alle norske databaser.

4.1.2

Om Brønnøysundregisteret skriv rapporten (sitat) Enhetsregistrene har ikke tillatt bruk av samiske tegn ved registrering av fir-manavn. Begrunnelsen har vært at dette ikke er teknisk mulig, og at samiske tegn ville vanskeliggjøre søk, både innenlands og utenlands. (Sitat slutt.)

Kommentar:

Det er sikkert rett at dette har vore Brønnøysundsregistra si grunngjeving. Men grunngjevinga held ikkje mål. Det er teknisk mogleg å bruke samiske teikn både til registrering og søk. Sjå nedanfor for dokumentasjon.

Konklusjon 4.1.4.

Ikonklusjonen blir det hevda at register ikkje er plikta til å bruke samiske namn, med mindre dei er brukt som stadnamn. Dette ser for meg ut til å vere ein merkeleg konklusjon i denne samanhengen. At nokon som ikkje vil bruke samiske namn heller ikkje må gjere det er greit nok, men ein skulle tru Brønnøysundregistra var pliktige til å registrere firma på det namnet firmaeigaren har vald til firmaet sitt. Med andre ord: Det står ein kvar fritt til å lage seg eit firma med namnet "Karasjohka" utan akutt aksent og s-caron, men viss samiske firmaeigarar vil bruke samisk i firmanamnet sitt, enten det no er eit stadnamn eller berre eit samisk ord, må jo Brønnøsyundregisteret registrere namnet slik det faktisk er skrive.

4.2.1

Teksten skildrar problema med å få MicroMarc-basen (som baserer seg på MS-DOS-kodetabellen "Samtast") til å framstå med korrekt samisk på internett. Det som ikkje går fram er at det er fullt mogleg å løyse dette problemet. Ein kvar web-programmerar kan skrive eit script som konverterer dei samiske teikna i Samtast til t.d. Unicodebaserte sgml-entitetar, slik at dei kan blir lese på ein kvar nettlesar. Dette scriptet kan bli brukt ein gong, til å konvertere basen, eller det kan bli brukt som eit filter, slik at basen kan bli oppretthalde som han er, men alle uttak frå basen blir presentert som lesbare t.d. for ein Unicodebasert nettlesar.

4.2.2

Det står at BIBSYS baserer seg på LEVI.

Det er ikkje korrekt (viss ein med "LEVI" meiner den 8-bits kodetabellen som LEVI-løysinga bruker), noko ein kvar kjapt kan finne ut ved å gå inn på BIBSYS sin documentasjon og sjå etter, jf.

http://www.bibsys.no/bibfaglig/refsok/sami-websok.htm

BIBSYS baserer seg på Unicode, og alle nettlesarar som kan lese UTF-8 kan lese samiske titlat i BIBSYS over nettet (ei anna sak er at det er skrivefeil i ein del av bøkene som er lagt inn i bibsys.basen). I rettleiinga går det og fram at det er mogleg å søke både med og utan samiske bokstavar. Dette inneber at det t.d. er mogleg å få tilslag på søkeordet "Sápmi" både ved å skrive "Sápmi" og ved å skrive "Sapmi".

8-bits tegnsett

I staden for at "det nordiske embetsmannsorganet for samiske spørsmål skal utrede mulighetene for å skape en felles løsning for de nordiske landene" bør dette organet (eller arbeidsgruppa bak denne rapporten) spørre fagfolka på dette området. Dei kan fortelje følgjande:

Ingen nye nordiske løysingar skal lagast for samisk. Alle dei løysingane som eksisterer, og som er presist skildra i den svenske standarden TN46, er i bruk i alle dei nordiske landa. Sjølv om arbeidet med å lage sjølve standarddokumentet har vorte utført i Sverige, har arbeidet med å utforme dei konkrete kodetabellan vore eit fellesnordisk arbeid. Grunnen til at det er fleire ulike standardar er ikkje at det er fleire ulike land, men at det er fleire ulike plattformar og operativsystem.

Det er positivt at arbeidsgruppa støttar dei standardane som det svenske Statskontoret har laga av kodetabellane utarbeidd av Samisk Datautval. Sjølv om det i seg sjølv ikkje er den viktigaste arbeidsoppgåva no, vil det å ratifisere TN46 som norsk og finsk standard vere ein fordel.

Arbeidet som går føre seg i Sverige når det gjeld 8-bits teiknsett er ei formell stadfesting av arbeidet som vart gjort i Samisk Datautval i 1996-1998 (jf. http://www.hum.uit.no/a/trond/isit.html for referanse). Alle dei relevante standardane (Macintoshstandarden, ISO-IR 197/209 og Windows Sámi (den siste referert til som "LEVI" av utvalet) ligg fast. Det einaste ugjorte på dette området er å gje Windows Sámi eit internasjonalt nummer, slik at det kan bli attkjent. I og med at Windows Sámi er laga som ein Microsoft-standard (og bruker kolonne 8 og 9 i tabellen) kan han ikkje bli registrert i ISO-registeret, som forbyr bruk av desse kolonnene.

I samband med standardiseringsarbeidet er det og viktig å peike på at NTS no vurderer å dra seg ut av arbeidet i TC304 og ISO/IEC JTC1 SC2 (dvs. av dei europeiske og internasjonale standardiseringsorgana som er relevante i denne samanhengen), av økonomiske grunnar. Arbeidsgruppa kunne gjerne vere konkret på dette punktet, og slå fast at ei slik prioritering frå NTS si side ikkje er i pakt med måla som blir sett i denne rapporten. Problemet med NTS si rolle når det gjeld naturlege språk er at finansieringsstrukturen for standardiseringsarbeid frå og med år 2002 har vore stramma inn til eit "brukaren betaler"-prinsipp. Men brukaren i dette tilfelle er ikkje eit privat firma som kan betale for standarden dei treng, brukaren er alle som skriv, les og handsamar samisk tekst. Ingen einskildorganisasjon er i dag viljug til å gå inn og betale for dette allmennyttige arbeidet, og som eit resultat er NTS i ferd med å drege seg ut av dette arbeidet (både for samisk og norsk). Departementsrapportens allmenne formuleringar om at "XXX" rimer dårleg med aktuell norsk standardiseringspolitikk, og rapporten bør ikkje lukke augo for desse ubehagelege fakta, men kommentere gapet mellom intensjon og handling, og fortelje om dette gapet skal halde fram eller ikkje.

Kapittel 5

"Unicode er no implementert i de mest brukte programvarene"

På eitt punkt er det grunn til å kome med eit varsko. I Unicode er området frå 00 til FF (dei 256 første kodeposisjonane) identisk med ISO/IEC 8859-1, eller Latin 1. I Microsoft sin måte å implementere Unicode er det ikkje Latin 1 som dannar dei første 256 teikna, men Microsofts cp 1252. Problemet her er teikna i området 80-9F. I Latin 1 er dette området blankt, men i cp 1252 ligg det teikn her, m.a. dei samiske teikna s-caron og z-caron. Når t.d. Microsoft Word lagrar tekst, blir s-caron og z-caron lagra etter cp 1252-verdiane sine, og ikkje etter Unicodeverdiane sine. I klårtekst betyr dette at for desse to bokstavane er Microsoft i dag ikkje Unicode-kompatibel, men proprietær. For å bruke Microsoft sine produkt i samisk samanheng må ein med andre ord vere sikker på at desse to bokstavane ikkje blir koda feil, og evt. gå inn og endre manuelt. Dette bør ein vere merksam på. I verste fall vil Staten publisere samisk berre på denne måten, og i praksis tvinge fram ei proprietær løysing, noko som sjølvsagt er ei særs uheldig løysing.

Kapittel 6

Rapporten skildrar problema med Levi-basert programvare, og skisserer ei løysing: "Det er derfor nødvendig at tekstforfattere og oversettere som jobber for departementene oppdaterer sine programvarer". Ei sak er at rapporten ikkje går inn på kva oppdatering dette skal vere. Ei anna sak er at løysingsframlegget byggjer på ei misforståing av kva problemet er.

Viss tekst skal presenterast på ODIN må det leverast i html- eller xml-format. Avgjerande er ikkje alderen på programvara, men at dei samiske teikna i teksten blir koda etter Unicode. All tekst som ikkje er skrive i html direkte må konverterast til html. Problemet er ikkje at teksten i utgangspunktet er skrive i Levi, men å bruke rett filter til rett koding.

Avsnitt 6.1 refererer til "eldre datasystemer". Det er upresist. Innafor Windows kan alle operativsystema frå og med Windows 95 lese samisk koda i Unicode, Linux kan lese samisk koda i Unicode, og Macintosh frå og med OS 9.2 kan lese samisk koda i Unicode (det er og mogleg å lese samisk koda i Unicode f.o.m Macintosh OS 8.0, men då må ein kjøpe inn eit "Language Kit" separat).

Kapittel 7

"..det tastatur som er utviklet av Microsoft.."
Dette er misvisande. Meir korrekt hadde vore " ..utviklet av Samisk Datautvalg og implementert i Microsoft-programvare av TietoEnator".

Det er riktig at Samisk Datautval og det svenske Statskontoret sitt tastatur skil seg frå kvarandre når det gjeld plasseringa av t-stroke. Grunnen til at vi i Samisk Datautval gjekk inn for løysinga vår var at t-stroke var brukt sjeldnare enn y i samisk tekst (jf. "samiske" ord som fylkagielda, Nystø, Synnøve, Hydrocortison, osb.). Etter vårt syn bør tastatur vurderast ut i fra prinsipp om bruksfrekvensen til bokstavane, stabilitet i høve til tidlegare tastatur og kompatibilitet med andre parallelt brukte tastatur. Vi såg det og som ein fordel at det ville vere mogleg å skifte mellom å skrive norsk/svens/finsk og å skrive samisk utan å skifte tastatur. Statskontoret sitt "prinsipp" om "nasjonale bokstavar" har ikkje nokon plass i seriøst arbeid med tastaturlayout. Når det er sagt er det fullt forståeleg at ein i Sverige gjerne vil ha t-stroke på nivå 1 (direkte tastatrykk), i og med at t-stroke er i bruk i det samiske namnet på Sverige vil det vere meir frekvent i samisk skrive i Sverige enn i samisk tekst i dei andre nordiske landa. Det svenske Statskontoret si løysing har med andre ord fordelar for svenske brukarar som Samisk Datautval sitt tastatur ikkje har.

Tastaturstandardisering skil seg likevel frå kodetabellstandardisering på eit avgjerande punkt: kodetabellar er ei offentleg sak, tastatur ei privatsak. Om ein skrivent har brukt eitt eller to tastetrykk for å produsere bokstaven Š (" + a eller æ direkte) er irrelevant for mottakaren av teksten, om Š derimot er representert etter Levi-, Macintosh- eller Unicode-standard er avgjerande for om det er mogleg å lese teksten eller ikkje. Arbeidet med å gjere det mogleg å overføre tekst mellom dei ulike teiknsettstandardane er dermed viktigare enn arbeidet med å få ein eins tastaturlayout. Her vil brukarane etter kvart kome fram til kva tastatur dei liker best.

Kapittel 8 Vurderinger

"Problemene med samisk tegnsett og IT på sikt muligens vil løse seg uten statlig medvirkning".

Det er viktig å ha klårt for seg kva som vil løyse seg, kva som ikkje vil løyse seg, og kva rolle staten kan ha.

Politiske vedtak om bruk av den eine eller andre standarden har ikkje noko verknad i seg sjølv, det som bestemmer kva standard som vil bli brukt er kva programvare som faktisk er tilgjengeleg, og kor kompatibel den programvara er i ulike samanhengar. Unicode kjem til å slå gjennom som de facto kodingsstandard, statleg medverknad eller ikkje.

Samisk skil seg derimot frå mange andre språk ved at normale marknadsmekanismer ikkje tvinger fram praktiske løysingar. Kommersielt baserte firma vil ikkje lage skreddersydde løysingar for samisk, det vil ikkje "av seg sjølv" bli skrive Word-til-html-filter for samisk, ganske enkelt fordi marknaden er for liten til det.

Den allmenne karakteren av dette problemet er og ei hindring. Store institusjonar som brukar mange pengar på dataløysingar vil i praksis ikkje bruke relativt små summar til utviklingskostnader av allmennyttig art. Dermed står t.d. Macintoshbrukarar utan skreddarsydd tastatur frå og med operativsystem 8.0, fordi ingen vil gå inn og betale utviklaren for noko alle vil dra nytte av, og fordi offentlege organ drog seg ut i 1998 (med nedlegginga av Samisk Datautval) og har vore fråverande sidan. I andre samanhengar er det det offentlege som infrastrukturproblem av denne typen: Alle treng veg, vatn og kraftline, men ingen vil betale for det aleine. Filter for overføring mellom ulike format er slike kraftliner.

Kapittel 9

Det må vere eit krav til programvare at det ikkje er proprietært. Odin må t.d. vere tilgjengeleg i allment dokumentert html og xml. Den utstrakte bruken av rtf som allment format er betenkeleg. rtf er eit proprietæert format, og det er eit udokumentert format (dokumentasjonen er i alle fall ikkje allment tilgjengeleg). Rtf endrar seg også med kvar nye utgåve av Microsoft Word. Spesielt for kodinga av samisk er rtf betenkeleg, det som ligg til grunn er nemleg ikkje Unicode, men ei idiosynkratisk blanding av Microsofts cp 1252 og Unicode (teikna i cp 1252 kolonne 8 og 9 blir brukt i staden for dei tilsvarande Unicode-verdiane).

Allmenne manglar ved rapporten

Rapporten tar i det heile ikkje opp skilnaden på proprietær og fri programvare. Sett i frå samisk synsstad har open programvare, som vi finn det i Linux, enn fordel i minoritetsspråkssammenheng samanlikna med kommersielle, lukka operativsystem: Mens inkludering av språkstøtte i slike systemer alltid vil vere resultat av ei kommersiell vurdering (og graden av velvilje) hos eigarane til programvaren og operativsystemet, har ikkje opne system som Linux denne begrensninga. Viss nokon vil lage ein nordsamisk (eller lulesamisk, osv.) versjon av eit program eller til og med eit helt brukargrensesnitt, eller inkludere tastatur eller andre støttefunksjoner, så gjer dei rett og slett bare det. I og med at kjeldekoden til programma er opne, er det fritt fram for alle til å modifisere dei og lage det dei treng. Og resultatet blir like god språkstøtte for alle.

Det er fleire bruksområde for samisk som ikkje blir tatt opp.

Den mest alvorlege utelatinga er at folkeregisteret ikkje er drøfta. Av alle språklege rettar er retten til sjølv å bestemme kva namn ein skal ha eit av dei som er mest akseptert, og Noreg har ofte stått på barrikadane mot assimilatorisk politikk i Bulgaria og Tyrkia, der medlemmane av dei tyrkiske og kurdiske minoritetane har vorte tvunge til å skifte til majoritetsspråklege namn. I praksis fungerer det norske folkeregisteret på same måten. Denne handsaminga av Noregs "fjelltyrkarar" fortener i det minste ein merknad i ein rapport som denne, aller helst fortener ho ei snarleg løysing, slik at den sjølvklåre retten til bruk av eigne namn skal bli oppfylt. Folkeregisteret legg den gamle 8-bits EBCDIC 277 til grunn for registra sine. Denne praksisen må endrast til eit format som inkluderer samiske namn (og dermed også namna til ulike innvandrargrupper, noko som vil vere ein positiv sideeffekt). Ekstra ille er det at Folkeregisteret ikkje ein gong lar namneberarar bruke alle dei bokstavane som i dag er tilgjengelege i EBCDIC 277. Som eit strakstiltak må det bli opna for bruk av bokstaven "á" i folkeregisteret sine baser. Denne bokstaven er den mest vanlege i samiske namn, den er allereie tilgjengeleg i EBCDIC 277. Den langsiktige løysinga er likevel å gå over til UTF-8.