General Intro - ÆÍÂÀÃÈ ØÄÑÀÅÀÊÈ

UNICODE, ISO 10646 ႣႠ ႵႠႰႧႳႪႨ ႩႭႫႮႨႳႲႤႰႳႪႨ ႣႠႫႼႤႰႪႭႡႨႱ ႱႲႠႬႣႠႰႲႨႦႤႡႠ

Unicode encoded Georgian document

შინაარსი

1. შესავალი
2. მცირებიტიანი და მრავალბიტიანი სისტემები
3. უნიკოდი და ისო (ISO)
4. ქართული დამწერლობები Unicode-ში
5. ქართული Unicode-ISO კოდირებული HTML
6. Unicode სტანდარტის ქართული ფონტები
7. ქართული, Unicode და Windows სისტემები

პასუხის პასუხი
როს მოვედით ჩვენ,
მსწრაფლ გიცანით თქვენ,
შორს დავიჭირეთ თქვენი ანბანი;
რად ჰკვირობთ მასა,
რომ თქვენს ანბანსა
ვერ შევეჩვიეთ ვერვინ ჩვენგანი.
ილია

1. შესავალი

კომპიუტერი რომ კოდებით მუშაობს, ეს თითქმის ყველამ იცის. ასოების, ციფრების, პუნქტუაციის ნიშნების ნაცვლად ეს ელექტრონული გამომთვლელი მანქანა კოდებით "მუშაობს, აზროვნებს" - და სხვა ხერხი მან ჯერ-ჯერობით არ იცის.

ამიტომ, ქართულის კომპიუტერიზებისათვის, ანდა კომპიუტერის გაქართულებისათვის პიველხარისხოვანი მნიშვნელობა აქვს ქართული ასოების კოდირებას ანუ ყოველი ქართული ასოსათვის საკუთარი კომპიუტერული კოდის მინიჭებას. მას შემდეგ, რაც ასოს მიენიჭება კოდი, კომპიუტერი ასოს ამ კოდით ცნობს და ეკრანსა თუ საბეჭდ მოწყობილობაზე ამ კოდის შესაბამისი ქართული ასოს ნახატს ბეჭდავს. ამ ნახატების ერთობლიობას ჩვენ ტექსტად აღვიქვამთ.

კომპიუტერის ფონტი ანუ შრიფტი არის ცხრილი რომელშიც მოცემულია ასოების (დამწერლობის სიმბოლოების) ნახატები და ყოველ ასო-ნახატს (ანუ გლიფს) მიწერილი, მინიჭებული აქვს რაიმე კოდი.

ელეტრო და ელექტრონულმა ინფორმაციულმა მანქანებმა თავის განვითარებაში რამდენიმე ეტაპი განვლეს, რომლის განმავლობაში მათი შესაძლენლობები სულ უფრო იზრდებოდა. ჯერ კიდევ 15-20წლის წინ გაბატონებული იყო 5, შემდეგ - 7 ბიტიანი სისტემები (ტელეტაიპები და სხვა) რომლებიც შესაბამისად 64, 128 სიმბოლოს ასახვის საშუალებას იძლეოდნენ.

2. მცირებიტიანი და მრავალბიტიანი სისტემები

პირველ "პერსონალურ" კომპიუტერებს, რომლებიც 70იან წლებში გამოჩნდენ 8 ბიტიანი სისტემები და შესაბამისად კოდირება ჰქონდათ. ასეთ კომპიუტერებს (რომლებიც აღჭურვილი იყვნენ მაგ. MS DOS 2/5 ოპერაციული სისტემებით და Win 3.x გარსით) ჰქონდათ სულ 256 კოდის ადგილი, უჯრედი. აქედან, პირველი 31 კოდის უჯრედებში იჯდა თვით კომპიუტერის სისტემისათვის და მხოლოდ მისათვის გამოყოფილი კოდები.

32 უჯრედიდან მოყოლებული იყო პუნქტუაციის ძირითადი ნიშნები, ციფრები, ანგლო-ლათინური ასოები. ამგვარი წესი, სტანდარტი ამერიკამ შემოიღო და კოდირების ასეთ ცხრილს ASCII (ინფორმაციის გაცვლის ამერიკული სტანდარტი) დაერქვა -- ეს მდგომარეობა შემდგომ განმტკიცებული იქნა საერთაშორისო სტანდარტების ორგანიზაციის მიერაც და კანონად გადაიქცა.

კომპიუტერის კოდის დარჩენილ 128 კოდზე (უჯრედში) კი თავსდებოდა მსოფლიოს ყველა დანარჩენი ხალხების დამწერლობის ასოები. ეს იმას ნიშნავდა, რომ ინგლისურ-ლათინური ტექსტი ცალსახად იკითხებოდა ნებისმიერი ფონტით და ნებისმიერ კომპიუტერზე. ხოლო რაც შეეხება ნაციონალურ დამწერლობებს -- აქ უნდა გემარჩიელათ და ძებნით დაგედგინათ თუ რომელი ფონტი მოერგებოდა...

ახალი შესაძლებლობები გამოაჩინა და მდგომარეობა გაამარტივა 16 და შემდეგ 32 ბიტიანი კომპიუტერებისა და მათი ოპერაციული სისტემების შექმნამ (Win 95/98/NT5-2000). ახლა კომპიუტერს შეუძლია გაარჩიოს ათეული ათასობით (2^16=65.536 - 16 ბიტიანში), მილიონობით კოდი (2^32=4.294.967.296 - 32 ბიტიანში) და შესაბამისად უნიკალური ასო-სიმბოლო.

კომპიუტერის ბიტიანობის ზრდა მეცნიერულ-ტექნიკური პროგრესის ტენდენცია და ობიექტური კანონზომიერებაა და ამას ანგარიშის გაწევა და აყოლა სჭირდება (შორს არაა დრო, როდესაც 64 და 128 ბიტიანი კომპიუტერები გამოჩნდება ბაზარზე). როდესაც ეს ნათელი გახდა, მსოფლიოს სხვადასხვა დამწერლობებისათვის დაიწყო საკუთარი სტანდარტების შექმნა. ამით ნაციონალურ დამწერლობებებს გაუჩდათ შესაძლებლობა კოდირების ცხრილში საკუთარი, მხოლოდ-და-მხოლოდ მათთვის გამოყოფილი ბლოკები, კოდები, უჯრედები დაიმკვიდრონ (მათ შორის ჩინურსაც).

3. უნიკოდი და ისო (ISO)

ამ დიდი საერთაშორისო განაწილების გასაძღოლად წამყვანი კომპიუტერული კომპანიების მიერ შეიქმნა საერთაშორისო კონსორციუმი Unicode . კონსორციუმმა, რომელშიც ნებაყოფილობით მონაწილეობენ მსოფლიოს მრავალი ნაციის წარმომადგენლები უზარმაზარი სამუშაო გასწია (სხვათა შორის ფართო, საჯარო განხილვისა და კამათის ვითარებაში) და შექმნა მსოფლიოს ხალხთა დამწერლობებისათვის ერთიანი, უნიფიცირებული 16/32 ბიტიანისტანდარტი. ეს სტანდარტი აგრეთვე გაიზიარა და გარკვეულწილად გააღრმავა ISO-საერთაშორისო სტანდარტების ორგანიზაციამ 32 ბიტიან სტანდარტში ISO 10646 1/2 [=UCS-4].

მნიშვნელივანია, რომ უნიკოდში ნებისმიერი ენის/დამწერლობის ასახვის საფუძველია თანამედროვე ლიტერეტურული ენა. ხოლო, ამ ენის/დამწერლობის სხვა ვარიანტები - ძველი, დიალექტური და სხვ. აისახება - დამატებებში და გაფართოებებში.

რას წარმოადგენს Unicode-ISO -სტანდარტი - დამწერლობების კომპიუტერული კოდირების ეს უზარმაზარი სისტემა-ცხრილი და როგორაა იგი აგებული?

Unicode-ISO კოდირების სტანდარტულ ცხრილში ყოველი ცალკეული ენის დამწერლობას (მისი ვარიანტებითურთ) გამოეყო საკუთარი ბლოკი, ზონა. მათ შორის ქართულს გამოყოფილი აქვს ბლოკი, უბანი რომელიც მოიცავს კოდებს ("ორბაიტიან სიტყვებს") U+1000-დან U+10FF-მდე. ასომთავრული ანი არის უჯრედში რომლის თექვსმეტობითი კოდია 10A0 (რიგითი ნომერია 4256) და ასე მიყოლებით; ხოლო მხედრული ანი კი ზის 10D0 უჯრედში (რიგითი ნომერია 4304) და ასე მიყოლებით. ამ უჯრედების გამოყენების უფლება არც ერთ სხვა დამწერლობას არა აქვს.

რა თქმა უნდა,

ყოველმა (განათლებულმა და შეგნებულმა=Win 98,NT,2000) კომპიუტერმა (ოპერაციულმა სისტემამ) იცის, რომ Unicode-ს ეს კოდები ქართული ენისაა !
და, ავომატურად გაჩვენებთ სტანდარტით მომზადებულ ქართულ ტექსტს ქართულად (რომელიმე ქართული ფონტით რომელიც დაყენებული (ჩასმული, დადგმული, ინსტალირებული) კომპიუტერზე - თუნდაც ზუსტად ის ფონტი, რომლითაც დოკუმენტი მომზადდა მას არ ჰქონდეს !
კიდევ მეტი, როდესაც პროგრამას (მაგ. Word97/200) უბრძანებთ, რომ ქართულ ტექსტს ამზადებთ, კომპიუტერი შემოგთავაზებთ, ავტომატურად დაგიყენებთ გამოსაყენებლად სწორედ ქართულ ფონტებს და კლავიატურის სწორედ ქართულ განლაგებას.
ტექსტის ავტომატიზებული კორექტურისას, ქართულ ტექსტს ავტომატურად ქართული ორთოგრაფიული ლექსიკონით ასწორებს და ასე შემდეგ...

კომპიუტერი პირველ რიგში ავტომატიზაციაა...

ერთი სიტყვით, Unicode -სტანდარტმა კომპიუტერში ენის/დამწერლობის(!) ცნება დაამკვიდრა და არა მარტივად - შრიფტის ან ფონტისა. ამის შესახებ უფრო დაწვრილებით იხილეთ აქ

Unicode 16/32 ბიტიანი კომპიუტერული შრიფტების, ფონტების კიდევ ერთი არსებითი განსხვავება 8 ბიტიანისაგან ისაა, რომ ეს ფონტები როგორც წესი მრავალდამწერლობიანია - ერთი ფონტი ემსახურება მრავალ ენას და თავის სხეულში შეიცავს მრავალი დამწერლობის სიმბოლოებს.

4. ქართული დამწერლობები Unicode-ში

ახლა, ალბათ უპრიანია განვიხილოთ თუ როგორ და რა რიგითაა Unicode-ISO კოდირების ცხრილის ქართულ ბლოკში წარმოდგენილი, ჩასმული ქართული დამწერლობების ასოები. დიახ დამწერლობების, რამდენადაც სამი დამწერლობა გაგვაჩნია: [ხუცური] მთავრული, ნუსხა-ხუცური და მხედრული!

აქედან - ხუცური მთავრული ზედა რეგისტრისაა, ნუსხა-ხუცური - ქვედა რეგისტრისაა ისევე, როგორც ორიგინალური მხედრული (მთავრული, სასათაურო ასოები მხედრულისათვის ხელოვნურად შეიქმნა არც თუ დიდი ხნის წინ). ამდენად, ძველი, ტრადიციული გაგებით მხედრული "ნუსხურია" - არ არის სასათაურო.

ამ საკითხზე საუბრისას უნდა გავითვალისწინოთ ენა--დამწერლობის წყვილის სტრუქტურის ასახვის აუცილებლობა. ლაპარაკია წყვილებზე:

თანამედროვე ლიტერატურული ქართული ენა და თანამედროვე ქართული ენის დამწერლობა;
ძველ-ქართული, საეკლესიო ენა და ძველქართული ენის დამწერლობა;
ქართული დიალექტები და ქართული დიალექტების დამწერლობა; და
ქართველური ენები და ქართველური ენების დამწერლობა;

როგორც უკვე აღვნიშნეთ, Unicode (სავსებით სამართლიანად) საფუძვლად ყოველთვის იღებს თანამედროვე ლიტერატურულ ენას, ხოლო ყველა სხვა ინვარიანტს - ისტორიულსა თუ დიალექტურს ასახავს გაფართოების (extension/expansion) სახით.

ამასთან დაკავშირებით წარმოიქმნება შეკითხვა - რამდენი ასოა თანამედროვე ქართულში? ალბათ სკოლიდანვე გახსოვთ. დიახ, თანამედროვე ლიტერატურულ ქართულ ენაში 33 ასოა. ეს რიცხვი ალბათ კარგად ჩაგებეჭდათ მეხსიერებაში - იოლი დასამახსოვრებელია და ასოციაციურიც არის...

ამიტომ, Unicode იღებს რა საფუძვლად თანამედროვე ლიტერატურულ ქართულ დამწერლობას - წარმოადგენს ქართულ ასოებს იმ რიგით, თანამიმდევრობით, როგორც დედაენის ყოველი ქართველისათვის ცნობილსა და კანონიკურს იაკობ გოგებაშვილის სახელმძღვანელოში:
"აბგდევზთიკლმნოპჟრსტუფქღყშჩცძწჭხჯჰ".

ამ რიგის შექმნასა და დანერგვას თავისი ისტორია, ლოგიკა და იდეოლოგია აქვს და იგი მჭიდროდაა დაკავშირებული ილია ჭავჭავაძისა და "ქართველთა შორის წერა-კითხვის გამავრცელებელი საზოგადოების" სახელებთან. აქ უპრიანია წავიკითხოთ, თუ რაა ცნობილი ამის შესახებ ფონტების ისეთი საერთაშირისო მწარმოებლისათვის, როგორიცაა "მონოტაიპ":

"... Mxedruli, the script for Modern Georgian, consists of 33 letters... Since its inception, Georgian script has undergone some changes in two main stages. In the 18th century, Anton I introduced some minor changes, while in the 1860s Ilia Chavchavadze dropped 5 symbols which were no longer needed for the phonology of Georgian..."

ქართული დამწერლობების ვრცელი მართებული და განვითარებული განმარტებები იხილეთ დანართში #5. თუ ეს ასპექტები ნათელია - ისიც ნათელი გახდება, რომ "პარლამენტ-სოროსის ფონდის სტანდარტი"-ს შემქმნელები ილიას "უსწორებენ". ილიას მტრობა - "ენისა მტრობა" გრძელდება....

სწორედ ამიტომაა, რომ ჩვენი საიტი იბრძვის თანამედროვე ქართული დამწერლობის კომპიუტერული სტანდარტის საკითხის ილიასეული გადაწყვეტისათვის და ამხელს "პარლამენტ-სოროსის ფონდის სტანდარტის" (რომელიც მილიარდერ სოროსის ფონდის ეგიდით შეიქმნა, იხ. დანართი #8) შემქმნელთა სახეს.

Unicode-ს ქართული ბლოკის ისტორიული ასოებისა და სიმბოლოების ჯგუფში (ისევე როგორც მაგ. ბერძნულში, კირილიკაში და სხვ.) გათვალისწინებულია ის ძველქართული ასოები და სასვენი ნიშნებიც, რომელიც დიდი ხანია ხმარებაში აღარაა და ქართველთა დიდმა უმეტესობამ მათი არსებობა არც კი იცის - (არც ის იცის როგორ გამოითქმება ეს ასოები და არ იცის თუნდაც ერთი სიტყვა - რომელშიც ეს ასოები გამოიყენებოდეს) - ეს ისტორიული ტექსტების ასახვისათვისაა საჭირო. მათ მიჩენილი აქვთ ადგილი ძირითადი ასოების შემდეგ, სპეციალური ჯგუფის უჯრედებში. აქვე საკმარისი ადგილია იმისათვის, რომ მომავალში დაემატოს ქართულის დიალექტებისა და ქართველური ენების ასოები.

ის ფაქტი, რომ არსებობს ქართული ასოების ორი რიგი, თანამიმდევრობა - თანამედროვე ლიტერატურული ენისა ანუ ილიასეული (რომელსაც ეყრდნობა Unicode) და - ძველი (ისტორიული, "ტრადიციული", ხუცური [საეკლესიო] დამწერლობის) ასახულია სხვათა შორის მაიკროსოფტის ახალი სისტემების დოკუმენტაციაშიც და Windows ახალი სისტემები იძლებიან ქართული ტექსტის სორტირების შესაძლებლობას ძველი რიგითაც (იხ. დანართი #2).

ქართულის მიმართ, საკითხის აქტუალობისა და კვლევის გაღრმავების შესაბამისად, Unicode-ში განვითარებადი მიდგომაა: ჯერ ინტერპრეტირებული იყო "ძირითადი ქართული" Basic Georgian - მხედრული და "გაფართოებული ქართული" Georgian Extended ხუცური მთავრულის სახით. შემდგომ განსაზღვრება ზუსტდება (ისევე, როგორც სხვა დამწერლობებისათვის) -- "ძირითადი ქართული" Basic Georgian, როგორც თანამედროვე ლიტერატურული ქართულის "დიდი" და "პატარა" ასოების ჯგუფი; ხოლო "გაფართოებული ქართული" Georgian Extended, როგორც ის ძველქართული ასოები, რომლებიც ილიამ ამოიღო.

ამდენად, Unicode-ISO კოდირების სტანდარტული ცხრილის ქართულ უჯრედებში ადგილი აქვთ მიჩენილი:

ცალკე "პატარა" ("ქვედა რეგისტრის", lower case), ნუსხური ასოების ჯგუფს;
ცალკე "დიდი" ("ზედა რეგისტრის", სასათაურო, capital, upper case), მთავრული ასოების ჯგუფს;
და ორივე ჯგუფის დამატების სახით -- ძველქართულ (ილიას მიერ ამოგდებულ) ასოებს (და სასვენ, პუნქტუაციის ნიშნებს).

Unicode-ს შესაბამისი ჯგუფების პოზიციებში, უჯრედებში გამომდინარე იქიდან თუ რომელი დამწერლობის ასხვა გვინდა -- თანამედროვე ლიტერატურული ქართულისა თუ ძველი, ხუცური დამწერლობის (შრიფტიც შესაბამისი უნდა შევურჩიოთ) შეიძლება ჩაიწეროს:

მხედრულის "დიდი", სასათაურო ასოები ან -- ხუცური მთავრული;
მხედრული "პატარა", ნუსხური ასოები ან -- ხუცური ნუსხური ასოები.

ქვემოთ ნახატებში მოცემულია ოროვე ვარიანტი:

Unicode-ISO 10646 ქართული ნაწილი წარმოდგენილი "დიდი" და "პატარა" მხედრულით
( იგივე ცხრილი შესრულებული "ცოცხალი" ფონტით ):

Unicode-ISO 10646 ქართული ნაწილი წარმოდგენილი "მთავრული" და "ნუსხური" ხუცურით:

აქ კიდევ ერთხელ და საგანგებოდ უნდა გავუსვათ ხაზი შემდეგ გარემოებას -- მხედრულ დამწერლობას არ გააჩნდა (ისევე, როგორც ხუსხურ ნუსხურს) "დიდი, ზედა რეგისტრის" ასოები - (ისეთი, როგორიც მაგ. ლათინურს აქვს). მხედრული უნიკამერალური [უნიკამერული] დამწელობაა -- და მხედრულის "დიდი", მთავრული ასოები ხელოვნურად, სინთეტიურად არის შექმნილი "პატარა, ქვედა რეგისტრის" ასოებისაგან, უცხო მოდის გავლენით. ასოების ასეთი გარდაქმნა არღვევს და ამახინჯებს ქართული ასოების ბუნებრივ პროპორციებსა და ჰარმონიას - განსაკუთრებით შუა ხაზისა ასოებისას - ა, თ, ი, ო (ხშირადხმარებული ხმოვნები) და მთელი სიმაღლისას - ქ, წ, ჭ. ასევე თვლიან "მონოთაიპის" სპეციალისტებიც (იხ. დანართი #7).

ძველქართულში (ანუ ხუცურში) ზედა რეგისტრის ("დიდ") ასოებად გამოიყენებოდა [ხუცური] ასომთავრული, ხოლო ქვედა რეგისტრის ("პატარა") ასოებად ნუსხა[-ხუცური].

ამოტომ, უნდა გავარჩიოთ:

ახლის - (მხედრულის) მთავრული და ძველის (ხუცურის) მთავრული ერთის მხრივ, და
ახლის (მხედრულის) ნუსხური (ჩვეულებრივი მხედრული) და ხუცურის ნუსხური (ნუსხა-ხუცური) მეორე მხრივ.

სწორედ ამ გარემოებების გამო იყო, რომ აკადემიკოსი აკაკი შანიძე და მისი თანამზრახველები დიდი ხნის განმავლობაში იბრძოდნენ იმისათვის, რომ ქართულში ისევ დაემკვიდრებინათ არსითა და გარეგნობით ნამდვილი ანუ ძველქართული (ხუცური) მთავრული - "დიდი, ზედა რეგისტრის, სასათაურო" ასოების სახით. ამასთანავე, მათი აზრით, უნდა მომხდარიყო ამ ასოების თაიპოგრაფიული მოდერნიზაცია-დამუშავება ფონტის დიზაინის თანამედროვე მიღწევების შესაბამისად (ფრიად საინტერესო სამუშაოა დღესაც ფონტის ქართველი დიზაინერებისათვის). ეს რომ განხორციელებულიყო, ამჟამად ჩვენ გაცილებით უფრო მდიდარი ფონტები გვექნებოდა და ბევრ გაუგებრობას გადავურჩებოდით. ქართულის კომპიუტერიზება ამ ინიციატივის გაცოცხლების ახალ შესაძლებლობას იძლევა და ეს ბრძოლა უნდა გაგრძელდეს ამ ახალ სფეროშიც.

ალბათ ასეთი შეკითხვებიც უნდა დაგვებადოს: რატომაა, რომ დასავლეთის (მსოფლიო) ფონტებისა და სისტემების მწარმოებლებს (რაც ასახულია კერძოდ Unicode-სა და ISO 10646-ში, აგრეთვე მაიკროსოფტის დოკუმენტაციაში) უფრო მართებულადა და ნათლად ესმით ქართული დამწერლობების გენეტიკური არსი, სტრუქტურა და წყობა ვიდრე ზოგიეთ "სპეციალისტს" საქართველოში? რატომაა, რომ მათ იციან ილიასა და მისი თანამებრძოლების, აკაკი შანიძისა და მისი თანამოაზრეების ბრძოლის შესახებ - ხოლო ქართველმა "სპეციალისტებმა" -- არა? რა არის ეს - არაკომპეტენტურობა, უვიცობა თუ ისევ-და-ისევ "ენისა მტრობა"?

ხუცურის (ძველქართულის) და მხედრულის (ახალქართულის) "რეგისტრის"-case თვალსაზრისით დაჯგუფება ამგვარია:

თუ ფონტში ირივე რეგისტრის ასოებია - კომპიუტერს შეუძლია ავტომატურად გადააკეთოს "პატარა" ასოები "დიდ" ასოებად... მან იცის თუ რომელ "პატარა" ასოს რომელი "დიდი" - სასათაურო ასო შეესაბამება, და პირიქით.

უფრო ფართო გაგებით კი, ქართული და ქართველური დამწერლობის სტანდარტი უნდა მოიცავდეს 80-95 ასო-სიმბოლოს - რათა შეეძლოს აღწეროს ქართულის დიალექტები და ყველა ქართველური ენა. ამის კარგი მაგალითია MacCampus-ის ფონტი "ქართლი" (თუმცა, აქ მოტანილ მაგალითში, რომელიც მხედრულითაა შესრულებული, არასწორია მხედრულის რიგი):

მომავლის ამოცანად უნდა იქნა დასახული, რომ შეიქმნას, მოწესრიგდეს ამგვარი ჩამონათვალი და აისახოს იგი Unicode-ს ქართულ ბლოკში, როგორც - Georgian extended-ის ნაწილი. ამ ამოცანის გადაწყვეტის შემდეგ შეგვეძლება ვთქვათ, რომ ქართულის კომპიუტერიზების ამოცანა ფუნდამენტურად გადაწყვეტილია.

აქვე უნდა დავამატოთ ქართული ასოების ტრადიციული ინვარიანტების პრობლემაც - ისეთებისა, როგორიცაა მაგალითად
დ-ð, ლ-ò, ო-ó, რ-ô, ö-÷, და-û და სხვა. ეს ინვარიანტები დამწელობის თვალსაზრისით გარკვეული სიმდიდრეა და ის არ უნდა დაიკარგოს.

მაგალითისათვის მოვიტანთ რუსულ-კირილიკური (სლავური ენების) ფონტის ფრაგმენტს (Win CP 1251), რომელშიც ეს პრობლემა მეტნაკლებად გადაჭრილია -- დააკვირდით: თანამედროვე მკითხველისათვის რამდენი უცნობი - "ძველსლავური" ასოა ამ ცხრის ზედა სტრიქონებში (დამატებითი ასოები), ხოლო თანამედროვე ლიტერატურული ენის ასოები კი დაწყობილია სწორედ თანამედროვე ლიტერატურული ენის ნორმების შესაბამისად (სხვათა შორის, აღსანიშნავია "მომაკვდავი" ასოს "იო"-ს გადატანის პროცესი extended ნაწილში - იგი თანამედროვე ლიტერატურულ რუსულში თითქმის აღარ გამოიყენება).

ამის მაგვარი უნდა იყოს Unicode-ს გაფართოებული ქართული სტანდარტიც.

5. ქართული Unicode-ISO კოდირებული HTML

ინტერნეტში, მსოფლიო ვებში ინფორმაციის წარმოდგენის გაბატონებულ ფორმატში, რომელსაც HTML-ს უწოდებენ Unicode-ISO-ს შესაბამისად ქართული ასოები ახლა, ამ მდგომარეობაში შესაძლებელია ორი წესით ჩაიწეროს:

1. ქართული ასო აღინიშნება მისი U-კოდით, [ორ/]სამ-ბაიტიანი კომბინაციით (თექვსმეტობით გამოხატულებაში) -- charset=utf-8
და
2. ქართული ასო მიინიშნება Unicode ცხრილში მისი უჯრედის რიგითი ნომრით (მაგ. 'ანი' ნომრით 4304, 'ბანი' ნომრით 4305 და ასე შემდეგ...) -- charset=windows-1252. საფიქრებელია, რომ ასეთი განმარტება რიგითი მომხმარებლისათვის უფრო გასაგებია.

თუ მომხმარებელი ნამდვილ 16/32 ბიტიან HTML მოსამზადებელ ინსტრუმენტს (რედაქტორს, პროცესორს) იყენებს - მაგალითად Word97-ს - მაშინ, იგი ამ სირთულეებს ვერ ხედავს (ისევე როგორც ყველა სხვას) და ტექსტს ჩვეულებროვად ამზადებს.

ზოგ გულუბრყვილო "WebMaster"-ს ჰგონია, რომ საკმარისია HTML დოკუმენტში (რომელიც 8 ბიტიანი ტიპის ქართულ ფონტს იყენებს), მიუთითოს პარამეტრი 'charset=UTF-8' -- რათა ეს დოკუმენტი გადაიქცეს უნიკოდ ენკოდირებულ ქართულ ტექსტად. მათ საყურადღებოდ - ამ შემთხვევაში სისტემა მიუთითებს Latin1-ის შესაბამის უნიკოდ კოდირებას და არა ქართულისას! მათ უნდა შევახსენოთ, რომ უნიკოდში ქართულს უნიკალური[!], მხოლოდ ქართულისათვის გამოყოფილი კოდები აქვს.

ამის განმარტებისათვის ნახეთ დასურათებული მაგალითები, რომლებშიც გამოყენებულია ორმაგი კოდირების ქართული ფონტი 'BPG Cveulebrivi U', რომელსაც ქართული ასოები აქვს Latin1 ზონაშიც და საკუთრივ უნიკოდის ქართულ ზონაშიც.

***
ზოგიერთი ენისათვის 8/16 ბიტიანობის გარდამავალ პერიოდში შეიმუშავეს ისეთი ინსტრუმენტარიუმი, რომელსაც უწოდებენ "Charset" და "CodePage" ("კოდური გვერდი", "ასოთა ჯგუფი, კომბინაცია") - ეს არის კოდი-გადამრთველი და ყოველ დამწერლობას თავისი (რა თქმა უნდა აგრეთვე საერთაშორისო სტანდარტის დონეზე დამტკიცებული) უნდა ჰქონდეს, გააჩნდეს.

შესაძლოა პარადოქსულად მოგვეჩვენოს, მაგრამ ეს ინსტრუმენტარიუმი საშუალებას იძლევა ორბაიტიანი კომბინაციის ნაცვლად გამოყენებული იქნას ერთბაიტიანი. "charset" გადამრთველის მეშვეობით სისტემა მიხვდება Unicode-ს რომელ ბლოკს განეკუთვნება HTML დოკუმენტის ტექსტი - ლათინურს, რუსულსა თუ ბერძნულს. ამით ორბაიტიან ჩანაწერს სისტემა "ლოკალიზებულ, დამისამართებულ, სახელდებულ" ერთბაიტიანამდე ამარტივებს. ეს გადმონაშთი ჯერ კიდევ ინტენსიურად გამოიყენება შერეული, 8/16/32 ბიტიანი სისტემების გარემოში.

მაგრამ, ქართულისა და სომხურისათვის ამგვარი ინსტრუმენტარიუმის შექმნა ვერ მოესწრო (ძალიანაც კარგი, ზოგიერთი ჭირი მარგებელიაო) და ალბათ აღარც გახდება საჭირო, რამდენადაც მაიკროსოფტი და სხვა პროგრამული პროდუქტების მსოფლიო მწარმოებლები ამთავრებენ გადასვლას ნამდვილ 32 ბიტიან - Unicode სისტემებზე (იხილე დანართი #6).

***

როდესაც ჩვენ ქართული კომპიუტერული დამწერლობის სტანდარტიზებაზე ვლაპარაკობთ, მხედველობაში გვაქვს ზემოთგანხილული საკითხების მთელი წრე - როგორც კომპლექსი და არა მხოლოდ ქართულ ასოთა წარმოდგენის თანამიმდევრობა, რიგი. ეს საკითხი საერთაშორისო დონეზე უკვე კარგა ხნის წინ გადაწყდა და ალბათ კაპიტალურად - პროგრამული პროდუქტების მსოფლიო მწარმოებლებისათვის მაინც.

6. Unicode სტანდარტის ქართული ფონტები

არსებობს Unicode სტანდარტის შესაბამისად, მიხედვით გამზადებული, მოწყობილი ქართული კომპიუტერული ფონტების ორი სახეობა:

1. რომლებშიც ასოები დაწყობილია იმავე რიგით, როგორც Unicode-ში, მაგრამ თვით ფონტები 8 ბიტიანი (Win 3.x) ტიპისაა. აქ ქართული ასოები ე.წ. გაფართოებული ASCII-ს ზონაშია. ასოებს არა აქვთ მიწერილი მათი Unicode კოდი.

ასეთებია BPG სერიის საგანგებოდ ინტერნეტისათვის და Unicode სტანდარტის დანერგვის მზადებისათვის შექმნილი ფონტები, რომლებსაც იყენებენ ინტერნეტის საიტები:

და მათ შორისაა დინამიური, ბიტმაპით აღჭურვილი ფონტები.

2. ნამდვილი 32 ბიტიანი (Win 95/98/NT) ტიპის ფონტები, რომლებშიც ყოველ ქართულ ასოს Unicode-ს კოდი აქვს მინიჭებული და რომლებიც სისტემამ შეიძლება ცალსახად ამოიცნოს(!) როგორც სწორედ ქართული.

ასეთებია BPG სერიის ის ფონტები, რომლითაც მომზადებულია გვერდები იმავე საიტში:

"ქართული ვების ტიპოგრაფია"

მათ შორის, ორი ზუსტად ერთნაირი ტექსტის შემცველი (ეს) გვერდები:

https://members.tripod.com/beso/UC-FF.HTM
-- მომზადებულია ქართული ასოების U-ორბაიტიანი ინტერპრეტაციით, charset=utf-8.

ხოლო გვერდი

https://members.tripod.com/beso/UC-NNNN.HTM
-- ქართული ასოებისათვის მათი U-რიგითი ნომრის მითითებით, charset=windows-1252.

თუ HTML წყაროს დაათვალიერებთ ამას დაინახავთ.

ამ ცხრილში უნიკოდით ინდექსირებულ ქართულ ასოთა რიგი ჯავას მეშვეობით იქმნება.

***

თუ მომავლის თვალსაზრისით შევხედავთ, UC-FF.HTM დოკუმენტი განჭვრეტად მომავალში Win 98/NT/2000 სისტემის ნებისმიერმა მომხმარებელმა უპრობლემოდ უნდა წაიკითხოს BPG ფონტების გარეშეც სისტემის "core" ფონტების მეშვეობით.

1995 წელს Mac სისტემისათვის Unicode ქართული ფონტი გამოაქვეყნა ინტერნეტში მ.ევერსონმა [(c)1994 Paul Meurer, Fosswinckelsgate 38, N-5008 Bergen, Norway. (c)1997 Michael Everson]. ფონტი მოიცავს მხედრულსა და მხედრულის მთავრულს.

7. ქართული, Unicode და Windows სისტემები

როდესაც შეზღუდული, ვიწრო გამოყენებისათვის გამიზნულ ფონტებზე გვაქვს საუბარი, Unicode-ISO სტანდარტი (საერთოდ, საღი აზრი და მეცნიერული მიდგომა) შეიძლება უგულველვყოთ, მაგრამ:

Win სისტემაში არის მთავარი, ძირითადი სისტემური (core) მრავალდამწერლობიანი(!) ფონტები - Arial, Times New Roman, Courier - რომელთა გაქართულებას პრინციპული სისტემური მნიშვნელობა აქვს საერთოდ კომპიუტერის გაქართულებისათვის. აქ კი ქართულის Unicode-ISO სტანდარტის მიხედვით კოდირებას ალტერნატივა არა აქვს. [იხ. გ.შერვაშიძის უნიკოდ ფონტები]

ამ სამუშაოს, როგორც წესი თვით მაიკროსოფტი უძღვება - და Win ქართულიც Unicode-ს მიხედვით გაკეთდება, ალბათ (ისევე, როგორც Win რუსული) - უკვე გაკეთებულია Arial Unicode MS [10.8.2000].

იხილეთ აგრეთვე ინფორმაცია "ტიტუს" საითში "ბითსთრიმის" თაოსნობაზე - ესეც სერიოზული განაცხადია. აქვეა "ტიტუს-ბითსთრიმის" მსოფლიო ენების (ქართულიც უკვე ჩართულია) გიგანტური Unicode ფონტიც - მისი ზომაა 877 KB.

ამა წლის (1999) გაზაფხულის დამდგომს Microsoft-მა გამოაცხადა, რომ Windows 98 და Windows 2000 (Windows NT5)-ში Unicode-ს გაძლიერებული მხარდაჭერა ექნება და რომ ქართული აისახება სწორედ და მხოლოდ ამ ხერხით. ეს გულისხმობს იმას, რომ ქართულის სხვაგვარი წარმოდგენა - სხვა კოდირებებით არ იქნება (იხ დანართი #2).

სხვა ინფორმაცია ქართულად ამ საკითხზე იხილეთ BPG-InfoTech ნეთვორქის საითში ႸႠႥႪႤႢႭ.

თუ წარმოდგენილ ინფორმაციასა და ბმულებს ყურადღებით გაეცნობით, საკითხი უფრო ნათელი გახდება.

***
კომერციული ქიბორდის პროგრამა უნიკოდით ინდექსირებული ქართული ფონტებისათვის გამოცხადებული აქვს ფირმას Unitype Inc. პროდუქტებისათვის Global Writer და Global Office.

ხოლო რა პროგრამებით და როგორ შეიძლება ამჟამად Unicode სტანდარტის ქართული ფონტების (ერთის მხრივ) და ტექსტის, HTML დოკუმენტის (მეორე მხრივ) მომზადება, ამაზე საუბარი გვექნება ერთ-ერთ მომავალ სტატიაში.

გაგრძელება - დანართები

BPG-InfoTech
Feb. 22, 1999, mod - Jun. 26, 1999 - 2001