இவற்றிற்கான களஞ்சியம் 'Tamil Unicode' வகை

Oct 03 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! – 17

Filed under India, Internet, Tamil Unicode

ஒரு சட்டம், வரையறை, கோட்பாடு இயற்றுவதில் வெள்ளைக்காரன் கெட்டிக்காரன் தான். ஏனெனில், அவன் மற்ற இனத்தவர்களை விட இவைகளை இயற்ற முதலில் எத்தணித்தவன். ஆகவே, அவனுக்கு பல முறை முட்டி மோதி, பல முறை மேம்படுத்தி பழக்கப்பட்டவன். இன்றும், கையில் அதிகாரம் இருந்தால் கூட களவு செய்ய முடியாதபடி (அ) செய்தாலும் பிடிபடும்படி நுணுக்கமாக ஒரு கட்டமைப்பை உருவாக்கி இருப்பதால் தான், கடையின் சொந்தக் காரன் வீட்டில் இருக்க வேலைக்காரன் கல்லாவில் அமர்ந்தாலும் கடை நஷ்டத்தில் போவதில்லை.

ஆகவே, ஒருங்குறி அமைப்பின் சட்ட திட்டங்கள் சரியானதாகவே இருக்கலாம். ஒருங்குறி ஒரு உலக மொழி ஒருங்கமைப்பு என்ற ரீதியில் நோக்குவோமானால் அவர்களின் சட்ட திட்டங்கள் மிகச் சரியானவையே. அதையே, தமிழை மட்டும் பார்த்தால், தமிழுக்கு விவேகக் குறைவே. இருந்தாலும் தமிழை மட்டும் அவர்களால் பார்க்க இயலாது. ஆகவே அவர்கள் நிலைப்பாடு சரியானதே.

இதில் இருந்து என்ன கற்றுக்கொள்ள வேண்டிய விடயம்? இனிமேலாவது தமிழ் மொழியை யாரும் பார்த்துக்கொள்வார்கள் என்று விடாமல், நாம் தாம் நம் மொழியின் முன்னேற்றத்திற்கு உழைக்க வேண்டும். இதை தமிழர்கள் உணர்வார்களா என்பது கேள்விக்குறி.

ஒருங்குறி உதவி வருங்காலத்தில் சகல மென்பொருளிலும் வழங்கப்படும். அதில் ஐயமில்லை. ஆதலால், எதிர்காலத்தில் தமிழுக்கு பிரச்சனை இருக்காது. ஆனால், மற்றய இடர்களான இடம், வேகம் என்பன இருந்து கொண்டே தான் இருக்கும்.என்னதான் தொழில்நுட்பம் வளர்ச்சி அடைந்தாலும், இன்னமும் பலருக்கு கணினியே கிட்டாத நிலை தானே நிலவுகிறது. அப்படியாயின், ஒருங்குறி வேலை செய்யக்கூடிய கணினி கிட்ட இன்னும் எத்தனை காலம் எடுக்கும் என்பதை எதிர்காலம் பதில் சொல்லும். இவ்வளவு காலமும் தமிழுக்கு ஒரு பின்னடைவே. மற்றய மொழிகள் வளர்ந்து கொண்டு வருகையில் தமிழ் மிக மெதுவாகவே துளிர்க்கிறது. இணைய முகவரி 255 எழுத்துக்களுக்குள் இருத்தல் வேண்டும். தமிழில் இணைய முகவரி வைத்தால் இந்த கட்டுப்பாட்டை இலகுவாக தாண்டும். இதை இப்போதே சில வலைப்பதிவாளர்களின் இடுகைகளில் கவனிக்கலாம். மேலதிக எழுத்துக்கள் வெட்டப்படுவதால் ஒழுங்காக வேலை செய்யாமல் போய்விடும். [மேலும் அறிய இடுகைகளில் தமிழில் தலைப்பு வைக்கும்போது கவனிக்கப்பட வேண்டியவை] இதை சரி செய்ய இன்னும் கொஞ்ச காலம் அதிகமாக தேவை. போராடிப் போராடியே பழக்கப்பட்டவர்கள் நாம். இதில் தோற்று விடுவோமா என்ன?

என்னைப் பொறுத்த மட்டில் இந்திய அரசாங்கம் இனிமேல் எந்த மாற்று கருத்துக்களையும் ஒருங்குறி அமைப்புக்கு எடுத்துச் செல்ல ஆதரவளிக்காது. அரசே ஆதரவளிக்காத போது ஒருங்குறி அமைப்பும் அதற்கு பெரிய முக்கியத்துவம் கொடுக்கப்போவது இல்லை. எப்பவும் பட்ட பின் தானே தமிழனுக்கு ஞானம் வரும்.

இருந்தாலும், தமிழின் மேம்பட்ட வடிவமைப்பை இன்று செய்து வைத்திருந்தால், எதிர்காலத்தில் உதவலாம் தானே. இனிமேல் எதாவது ஒரு அமைப்பு புதிதாக ஒரு முயற்சி செய்தால், அதற்கு தமிழை சரியாக, மிக மேன்மையானதாக வளங்கக்கூடியதாக நாங்களே முயற்சி செய்ய வேண்டும். அடுத்த முறையும் தவறினால், “குட்டக் குட்டக் குனிபவன் மொக்கன்” என்ற கதையாகிவிடும்.

<< பாகம் – 16

One response so far

Oct 03 2006


CAPitalZ

இடுகைகளில் தமிழில் தலைப்பு வைக்கும்போது கவனிக்கப்பட வேண்டியவை

வலைப்பதிவில் இடுகைகள் இடும்போது, தமிழில் தலைப்பை வைப்பதினால் சில தொழில்நுட்ப சிக்கல்களுக்குள் தள்ளப்படுகிறார்கள், நமது தமிழ் வலைப்பதிவாளர்கள். அவற்றை சரி செய்ய வழியை இங்கே தருகிறேன்.

ஒருங்குறித் தமிழ் கணினியில் வேலை செய்தாலும், எல்லா இடங்களிலும் ஒருங்குறித் தமிழ் வேலை செய்யாது. இதற்குக் காரணம் தமிழ் இரண்டாம் தர மொழியாக ஒருங்குறியில் ஏற்றப்பட்டதே. [மேலும் அறிய தமிழ் ஒருங்குறி?!]

உங்கள் இடுகைகளை தமிழ் தலைப்பில் சேமிக்கும்போது வலைப்பதிவு மென்பொருள் அந்த தலைப்பை இணைய முகவரியாக எடுத்துக்கொள்கிறது. ஆனால், “போ” என்பது இணைய முகவரி இடும் இடத்தில் அப்படி சரியாகத் தெரியாது. அது இணைய முகவரிகளை சேமிக்கும் முறையில் மாற்றியே தெரியும். அது மட்டுமல்லாமல் “போ” என்பது தமிழ் ஒருங்குறியில் 2 குறிகள். ஒரு குறி அல்ல. அப்படித் தான் தமிழ் ஒருங்குறி அமைக்கப்பட்டு இருக்கிறது. இப்போது நீங்கள் உங்கள் இடுகைக்கு “நான்” என்று தலைப்பைக் கொடுத்தால் அது உண்மையில் 4 குறிகள். இணைய முகவரிக்கு 255 எழுத்துக்களை தாண்டக் கூடாது என்பது விதியாகும். இப்போது நீங்கள் ஒரு பெரிய தமிழ் பெயரைக் கொடுத்தால், மீதமுள்ள எழுத்துக்கள் காணாமல் போய்விடும். அப்போ உங்கள் இடுகைகள் தெரியாமல் “404 – Page Not Found” என்று காட்டும் அல்லது பின்னூட்டமிட முடியாமல் இருக்கும். இந்த 255 எழுத்துக் கட்டுப்பாடே இதற்குக் காரணம்.

இதே 255 எழுத்து கட்டுப்பாடுதான் தமிழ் குழுமங்களில் தமிழில் தலைப்பை வைத்து அதற்கு மறுமொழி மின்னஞ்சலூடாக அனுப்பும்போது இழை பிரிந்து புதியதோர் இழை உருவாகுகிறது. ஒரு மிக நீண்ட எழுத்துக்களைக் கொண்ட தலைப்பில் கடைசியில் சில ஒருங்குறி குறிகள் வெட்டப்பட்டாலுமே அவை புதிய இழையாகிவிடும். கவனிக்கவும். நான் இங்கு எழுத்து என்னும்போதெல்லாம் தமிழின் ஒரு எழுத்தைக் குறிப்பிடவில்லை. தமிழ் “போ” என்பது ஒருங்குறியில் 2 குறிகள். அதே இணைய முகவரியில் இந்த இரண்டு குறிகளுமே மேலும் பல குறிகளாக மாற்றித் தான் உபயோகப்படுத்தப்படுகிறது. தமிழில் இரண்டெழுத்து தலைப்பு இணைய முகவரியாகும்போது பல எழுத்துக்கள்!
இதை சரி செய்ய வழிகள்:

  1. இடுகைகளுக்கு எந்தத் தலைப்பையும் கொடுக்காமல் முதலில் பிரசுரியுங்கள். வலைப்பதிவு மென்பொருள் [WordPress/ Blogspot] தானாகவே ஒரு இலக்கத்தைக் கொடுத்து சேமிக்கும். பின் அந்த இடுகையை திருத்த முயற்சி செய்து [edit], உங்களுக்கு விருப்பமான தலைப்பை கொடுக்கவும். இப்போ உங்கள் இடுகை ஒரு இலக்கமாக சேமித்து இருந்தாலும், மற்றவர்களுக்கு இடுகைத் தலைப்பு சரியாக உங்கள் விருப்பம் போல் தெரியும்.
  2. இடுகைகக்கு ஆங்கில தலைப்பைக் கொடுங்கள். பிரசுரித்த பின் மீண்டும் திருத்த முயற்சி செய்து [edit] உங்களுக்கு விருப்பமான தலைப்பை [தமிழிலோ] கொடுக்கலாம். இப்போ உங்கள் இடுகை ஆங்கில சொற்களால் சேமித்து இருந்தாலும், மற்றவர்களுக்கு இடுகைத் தலைப்பு சரியாக உங்கள் விருப்பம் போல் தெரியும்.
  3. WordPress உபயோகிப்பவர்களுக்கு மட்டும்:
    நீங்கள் புதிய இடுகை எழுத எத்தணிக்கும் போது உங்கள் வலது புறத்தில் சிறு சிறு தகவற் துளி போல் இருக்கும். அதில் “Post Slug” என்பதைக் கண்டு பிடியுங்கள். அதற்கு அருகாமையில் இருக்கும் ‘+’ சக குறியை தட்டி விரித்தால், ஒரு பெட்டி வரும். அந்தப் பெட்டிக்குள் நீங்கள் விருப்பமான ஆங்கில (அ) எண்ணில் தலைப்பை கொடுக்கலாம். அதே நேரத்தில் “Write Post” என்பதற்கு கீழ் உள்ள “Title” என்னும் இடத்தில் தமிழில் தலைப்பைக் கொடுக்கலாம். இது மேலே சொல்லப்பட்ட மேலதிக வேலையை இல்லாமல் ஆக்குகிறது.

Wordpress' Post Slug not expanded

Wordpress' Post Slug expanded

Wordpress' Post Slug and Title filled

பி.கு.: தேடு தளங்கள் [Search engines] இணைய முகவரியில் வரும் சொற்களுக்கு அதிக முக்கியத்துவம் கொடுக்கும். ஆகவே, நீங்கள் உங்கள் இடுகையை எண் கொடுத்து சேமித்தால் (அ) “blog-spot_25″ என்று சேமித்தால் உங்கள் இடுகையை கண்டுபிடித்து அதிக புள்ளி கொடுக்கும் சந்தர்ப்பம் குறையும். நீங்கள் ஆங்கில/ தமிழ் சொற்களில் சேமித்தால், அந்த சொற்களை தேடும்போது உங்கள் இடுகைக்கும் முக்கியத்துவம் கூட கொடுக்கப்படும், தேடு தளங்களால்.

ஆனால் இன்னும் ஒருங்குறியின் இரண்டாம் தர மொழிகளுக்கு [தமிழ் உட்பட] இணைய முகவரியில் போதுமான உதவி இல்லாததால், தமிழின் ஒவ்வொரு எழுத்துக்களும் “%e0%ae%aa%e0%ae%bf%e0%ae%” இப்படி குதர்க்கமாக பிரித்து தான் தெரியும். நீங்கள் உங்கள் இடுகையின் முகவரியை வேறொருவருக்கு கொடுக்க எத்தணிக்கும்போதோ (அ) உங்கள் வலைப்பதிவு பயனர் உங்கள் இடுகையின் இணைய முகவரியை வேறொருவருக்கு கொடுக்க விரும்பினால் உங்கள் இடுகையின் இணைய முகவரி மிக நீண்டதாக, குதர்க்கம் நிறைந்ததாக காணப்படும்.

சிறிய இணைய முகவரியாக வருவதற்காகவும், தேடு தளங்களில் உங்கள் இடுகையின் மதிப்பு அதிகரிக்கவும் இடுகைகளை ஆங்கில சொற்கள் [உங்கள் இடுகையின் கருத்து பொறிந்த சொற்கள்] கொண்டு சேமித்தல் நன்று என்பது என் அறிவுறை.

______
CAPital

5 responses so far

Sep 23 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! – 16

- ஒருங்குறியின் மேன்மை
- பிற மொழிகள் இடம்பெற்ற முறை
- தமிழ் மொழிக்கு உள்ள இடம்
- தமிழ் அறிஞர்கள் செய்யத் தவறிய செயல்
- தமிழுக்கு உள்ள சிக்கல் / அதனால் தமிழுக்குரிய பாதிப்பு
- தமிழுக்குக் கிடைக்க வேண்டிய இடம்
- தமிழை உயர்த்த செய்ய வேண்டிய பணிகள்
- போன்ற கருத்துகளுடன் நான் எடுத்துக் காட்ட விரும்பும் செயல் திட்டம் போன்றவற்றை பவர் பொய்ன்றில் கொடுத்துள்ளேன்.

ஒருங்குறியும் தமிழும்

மேலே உள்ள சுட்டியை தட்டி பவர் பொய்ன்றை தரையிறக்கிக் கொள்ளவும்.
______
CAPital

பி.கு. :-
பவர் பொய்ன்றில் தமிழ் சரியாகத் தெரியாதவர்கள் TSCu_Paranar.ttf எழுத்துருவை தரை இறக்கி நிறுவிப் பார்க்கவும். ஒருங்குறிக்கே இந்த நிலமையா! :(

TSCu_Paranar

தரையிறக்கியவுடன் TSCu_Paranar.txt என்னும் கோப்பின் பெயரை TSCu_Paranar.ttf என்று மாற்றுக.

பாகம் – 17 >>

<< பாகம் – 15

8 responses so far

Aug 28 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -15

Filed under Tamil Unicode

இது தான் ஒருங்குறியில் உள்ள உலக மொழிகளின் அட்டவணை:
http://www.unicode.org/charts/

நன்றாகக் கவனிக்கவும்:

Armenian
Armenian Ligatures

Coptic
Coptic in Greek block

Cyrillic
Cyrillic Supplement

Georgian
Georgian Supplement

Greek
Greek Extended
Ancient Greek Numbers
Ancient Greek Musical

Basic Latin
Latin-1
Latin Extended A
Latin Extended B
Latin Extended C (5.0)
Latin Extended D (5.0)
Latin Extended Additional
Latin Ligatures
Fullwidth Latin Letters
Small Forms

இவ்வாறு பல தரப்பட்டுள்ளது. நமது தமிழுக்கும் இதைப் போல் ஒரு “Tamil
Supplement” என்று தற்போது தமிழ் ஒருங்குறியில் இல்லாத எழுத்துக்களை ஏற்ற
முயற்சிக்கலாம்.

ஒருங்குறி அட்டவணையைப் பாருங்கள். ஏறக்குறைய அதில் உள்ள எல்லா மொழிகளுக்கும்
“Supplement”, “Extended” என்ற எதோ ஒரு முறையில் தமது எல்லா எழுத்துக்களையும்
ஏற்றியிருக்கிறார்கள் அம் மொழி வல்லுனர்கள்.

ஏன் Latin எழுத்துக்களுக்கே எத்தனையோ “Extended” எழுத்துக்களை
ஏற்றியிருக்கிறார்கள். எத்தியோப்பியா “Supplement” என்றும் “Extended” என்றும்
ஏற்றியிருக்கிறார்கள்.

அது மட்டுமல்ல சீனா, கொறியா, மற்றும் ஜபான், ஆகியவை அவைகளது எழுத்துக்கள்
மிகவும் அதிகமான பட்சத்திலும் எல்லா எழுத்துக்களையும் ஏற்றி இருக்கிறார்கள்.
சில கோப்புகளைக் கவனிக்கவும். 13MB, 5MB, 2MB என்று எல்லாம் பெரிதாக
இருந்தாலும் எல்லா எழுத்துக்களையும் ஏற்றி இருக்கிறார்கள்.

ஃபிரஞ்சு, ஸ்பானிஷ் போன்ற மொழிகளில் accent [அக்ஸன்ற்] என்று சொல்லும் குறியீடுகளுடன்
எழுத்துக்கள் இருக்கு. அவ் எழுத்துக்கள் எழுத்து வேறு “அக்ஸன்ற்” வேறு ஆகவும்
இருக்கிறது; தனி எழுத்தாகவும் இருக்கிறது. இவ்வாறு இரண்டு விதமாக அவர்கள்
ஏற்றியிருக்கிறார்கள், ஆனால் தமிழுக்கு மட்டும் அப்படியாயினும் எற்றவில்லை
இந்திய அரசு.

பாகம் – 16 >>

<< பாகம் – 14

_____
CAPital

5 responses so far

Jul 28 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -14

Filed under Tamil Unicode

நான் சொன்ன தமிழ் எழுத்துக்கள் யாவற்றையும் கணினியில் ஏற்றுதல் என்பது, விசைப்பலகையில் [keyboard] ஏற்றுதல் என்பதல்ல.

பேச்சுக்குச் சொன்னால் கணினியின் மூளையில் ஏற்றுவது. அதாவது ஒருங்குறி என்பது விசைப்பலகை அல்ல. அது ஒரு தகுதரம் [Standard for Computer Information Interchange]். அந்த தகுதரத்தில் தமிழை சரியாக ஏற்றியிருக்கலாம்.

இப்ப எத்தனை கீகள் விசைப்பலகையில் இருக்கிறதோ, அத்தனையே வைத்திருக்கலாம். வேணுமென்றால், கூட்டி (அ) குறைத்துக் கூட வைத்திருக்கலாம்.

அதாவது ஃபிரஞ்சு, ஜேர்மன், ஸ்பானிய மொழிகளில் உள்ளது போல் தமிழிலும் எல்லா எழுத்துக்களையும் ஏற்றியிருக்கலாம். à, á, â, ã, å̀́ இவை இங்கே காண்பது போல் ஒரு எழுத்தாகவும், பிரித்து தனித் தனியாகவும் a, ̀, ́, ˆ, ˜, ˚ ஏற்றப்பட்டிருக்கிறது.

இனிமேல் தமிழுக்கு அவ்வளவு இடங்கள் கிடைக்கும் என்று நம்பிக்கை இல்லை தான். அப்படி கிடைத்தாலும் ஏற்கனவே இப்போதிருக்கும் ஒருங்குறியில் ஊறிப்போனவர்கள் மாற்றத்தை விரும்ப மாட்டார்கள்.

அப்ப பிறகேன் இந்தக் கதறல்?
விட்டது பிழை என்று ஒத்துக்கொள்ளலாம்ல… இல்லை. தமிழ் மொழி இப்படித் தான். எழுத்தை ஒழுங்குமாறி வைத்து பிரித்து பிரித்து சேர்த்தால் தான் தமிழ் கணினியில் தெரியும். இல்லையேல் தமிழ் பிழையாகிவிடும். சும்மா ஏமாத்தக்கூடாது எல்லே.

தமிழ் மொழியின் எழுத்தின் வகைகளைப் புரிந்து கொள்ள எழுத்தைப் பிரித்துதான் சேமிக்க வேண்டிய அவசியமில்லை. கணினிக்கு எழுத்து தெரிவதில்லை, அதற்குண்டான இலக்கம் மட்டுமே தெரியும். அந்த இலக்கத்தை வைத்து இது எந்த மெய், எந்த உயிர் என்று அறியலாம். [TUNE இல் அப்படி செய்திருக்கிறார்கள்]

ஏன் தமிழில் கையாளும்போது இவ்வளவு சிரமம், வேகக் குறைவு, சேமிக்க அதிக இடம் என்று சாதரண கணினி உபயோகிக்கும் தமிழனுக்கு தெரியாது. அவன் சிந்தனையில் தமிழ் மொழி கணினியில் இப்படித் தான் இருக்கும் என்று மட்டுமே அறிந்திருப்பான். அவன் ஒரு ஃபிரஞ்சு, ஜேர்மன், ஸ்பானிய, சீனா, ஜப்பான், (அ) கொரியா மொழி தெரிந்தவனாக இருந்தால், தமிழில் எழுதுவதை விட அந்த மொழியில் எழுதினால் சகலவிதத்திலும் மேன்மை என்று யோசிப்பான். இன்றய காலத்தில் தமிழ் தெரிந்திருந்தாலும், ஆங்கிலத்தில் எழுதுவது இலகுவாக இருப்பது போல்.

கணினியில் ஒரு மென்பொருள் தயாரிக்கும் போது மிகவும் முக்கியமானது அந்த மென்பொருள் மிகவும் வேகமாக செயற்பட வேண்டுமென்பது. தமிழில் கணினி மொழியை [programming in Tamil script] எழுதினால் வெறும் எழுத்தைக் கையாள்வதற்கே ஒரு பகுதி வேகம் போய்விடும். பற்றாததற்கு, அந்த மென்பொருளின் சேமிக்கும் இடம் கூட அதிகமாகும். மென்பொருளை கணினிக்கு இறக்குமதி செய்ய காலம் காத்திருப்பவர்களுக்கு இது இன்னும் பெரிதாக்கும். இதையெல்லாம் அறிந்த ஒரு கணினி மொழி [computer programming்] வல்லுனர் ஒருபோதும் தமிழை கணினி மொழியாக தேர்ந்தெடுக்க மாட்டார். வெறும் பல்கலைக்கழகங்களில் சோதனைப் பயிற்சியாக மட்டுமே இருக்கும்.

 

 

பாகம் – 15 >>

<< பாகம் – 13

_____
CAPital

One response so far

Jul 27 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -13

Filed under Tamil Unicode

நான் இப்போது XP – ல் தமிழை புகுத்தி எழுதுகிறேன்.
அதில் தமிழ் என்று அடிக்க lcfBd என்று அடிக்க வேண்டும். (தலைசுற்றுகிறதா)
இதில் என்ன வசதி இருக்கப்போகிறது. மேலே படியுங்கள்!
ஆனால் மலயாளத்தில் அதே தமிழை அடிக்க அதே lcfBd என்று அடித்தால் போதும்.
lcfBd – തമിഴ് – தமிழ் – இந்த மூன்று சொற்களையும் அடிக்க நான் பயன்படுத்தியது
ஒரே கீகள்தான். மொழியைமட்டும் மாற்றினால் போதும். எவ்வளவு வசதி.

ஆமாம் நீங்கள் சொல்வது சரி. ஒரே கீகளைப் பயன்படுத்தி மற்றய இந்திய மொழிகளைப் பெறலாம். இந்த ஒரே ஒரு இலகுவான விடயத்திற்காக தமிழ் பலதை இழந்துள்ளது. அதிலும் பல வெற்றிடங்கள் உள்ளன. அதாவது, இந்தி மொழியில் உள்ள ஒரு எழுத்து தமிழ் மொழியில் இல்லையென்றால், நீங்கள் சொல்வது போல் செய்ய முடியாது. இப்படி உள்ள வெற்றிடத்தை நிரப்பும் முயற்சியாகத் தான் பல புதிய எழுத்துக்கள் தமிழில் சேர்க்கப்படுகின்றன. புதிதாக சேர்க்கப்பட்ட இன்னுமொரு “ச” எல்லாம் இதன் காரணமே. [ச, ஷ, ஸ, இவற்றை விட இன்னுமொரு ச, அது கிட்டத்தட்ட ஸ மாதிரி இருக்கும் அதே சத்தம் தான் கிட்டத்தட்ட]

இதற்கு என்ன காரணம் சொல்கிறார்கள்? எழுத்துக்கள் ஏற்றுகிறோம், விருப்பம் என்றால் உபயோகியுங்கள், இல்லையேல் உபயோகிக்காதீர்கள். இதே போல் தமிழ் எழுத்துக்கள் யாவற்றையும் ஏற்றியிருக்கலாமே? விருப்பம் இருந்தால் பாவிப்போம், இல்லையேல் பாவிக்காமல் விட்டிருப்போம்! தப்பை ஏன் ஞாயப்படுத்த எத்தணிக்கிறார்கள் என்று தான் எனக்குக் கோபம்.

சரி என்ன தமிழ் இழந்தது என்று யோசிக்கிறீர்களா?

வேகம்: “போ” என்பது ஒரு குறியல்ல 3 (அ) 2 குறி [3: கொம்பு, பனா, அரவு/ 2: கொம்பு+அரவு, பனா]

இடம்: “போ” என்பதை சேமிக்க 3 (அ) 2 குறியையும் சேமிக்க வேண்டும்
ஒரு பேச்சுக்கு சொன்னால், 1 MB இடம் உள்ள ஒரு கட்டுரையை நீங்கள் எழுதினீர்கள் என்றால் அதை ஒருங்குறியில் சேமிக்க 3 MB இடம் தேவை. ஒரு ஃபுலொப்பியில் சேமிக்க வேண்டியதை மாற்று வழிகள் தேடவேண்டியுள்ளது. ஒரு சாதாரணம் மனிதனுக்கு இந்த பிழை தெரிய வராது. ஏனெனில் அவன் தான் எழுதியதை கணினியில் சேமிக்க 3 MB தான் தேவைப்படும் என்று மட்டும் தான் அறிந்திருப்பான்.
veedikkai ennavenRaal ezhuthiya thamizh kadduraiyai thamingkilishil seemippathaRku thamizhai vida kuRaivaana idangkaLee pidikkum! [வேடிக்கை என்னவென்றால் எழுதிய தமிழ் கட்டுரையை தமிங்கிலிஷில் சேமிப்பதற்கு தமிழை விட குறைவான இடங்களே பிடிக்கும்!]

கையாளும் தன்மை: “போ” என்பது 3 (அ) 2 குறியாக இருந்தாலும் அது ஒரு எழுத்து என்று கணினிக்கு எப்போதும் உணர்த்திகோண்டிருக்க வேண்டும். [ஒரு சொல்லில் உள்ள எழுத்துக்களை எண்ணும்போது, வரிசைப்படுத்தும் போது, ஒரு வசனத்தில் இடம் பற்றாமல் சொல்லைப் பிரிக்க வேண்டி வரும்போது]

தகவல் பரிமாற்ற நேரம்: “போ” என்பதை ஒரு கணினியில் இருந்து மற்றய கணினிக்கு அனுப்ப ஒரு குறி பத்தாது, 3 (அ) 2 குறிகளையும் அனுப்ப வேண்டும்.

இவற்றை விட தமிழ் எழுத்துக்கள் எல்லாவற்றையும் ஏற்றாததால், தமிழ் எந்த ஒரு மென்பொருளிலும் தெரிய அந்த மென்பொருளால் மேலதிக உதவி தேவை. எதற்கு? “போ” என்பது இப்படித் தானே இருக்கு 3: கொம்பு, பனா, அரவு/ 2: கொம்பு+அரவு, பனா. இதை சரியாக ஒழுங்குபடுத்தி கணினித் திரையில் சாதாரண மனிதன் விழங்கிக்கொள்ளக்கூடிய விதமாக தெரியவைக்க.

இப்படித்தானே இவ்வளவு காலமும் இருந்தது இப்ப ஏன் இவ்வளவு கத்துறீங்கள் என்று சிலர் கேட்கக்கூடும். இவ்வளவு காலமும் இருந்ததை விட தமிழ் முன்னேற ஒரு சந்தர்ப்பம் கிடைத்தும் சில புத்திஜீவிகள் [ISCII] அதை அளிக்கவில்லை. ஏற்றியவர்கள் தான் பிழையாக ஏற்றிவிட்டார்கள் என்று பார்த்தால் மற்றயவர்களும் பத்தாததற்கு அது சரி என்று வேறு வாதிடுகிறார்கள்.

இந்த குறைபாடுகள் எதிர்காலத்தில், சாதாரண மனிதனுக்கு வித்தியாசம் தெரியாத வண்ணம் இருக்கும். இன்றைய நிஜ உதாரணம்: இப்போது கூட பலர் சொல்கிறார்கள். நான் தமிழில் தானே கணினியில் எழுதுகிறேன். எனக்கு ஒரு பிரச்சினையும் இல்லையே என்று [இது 3 MB பிரச்சினை போல் தான் - இப்போது இருப்பதை விட தமிழ் மேலும் சக்திவாய்ந்ததாக இருந்திருக்கும் என்று நீங்கள் அறிந்திருக்கவில்லை].

 

பாகம் – 14 >>

<<பாகம் – 12

_____
CAPital

No responses yet

Jul 26 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -12

Filed under Tamil Unicode

தமிழ் ஒருங்குறியில் சரியா பிழையா என்று யோசிக்காவிட்டாலும்,
தமிழ் எழுத்துக்களின் வரிசையில் அவை இல்லை என்பதை ஒத்துக்கொள்ள வேண்டும். வரிசையில் இருந்திருந்தால், எந்த கணினி மொழியிலும் மேலதிக உதவி இல்லாமல் தமிழை வரிசைப்படுத்தலாம்.

நீங்கள் அரிச்சுவடி பார்த்திருக்கிறீர்களா? [என்ன நக்கலு? .. கி..கி..கி..]. அதில் எழுத்துக்கள் ஒரு ஒழுங்கில் இருக்கும். நீங்கள் படிப்பதற்கு அது இலகுவாக இருக்கும்.
சரி அதே எழுத்துக்களை ஒழுங்கு மாறி அரிச்சுவடி தந்தால், உங்களால் படிக்க முடியாமல் போகாது. படிக்க முடியும், ஆனால் சற்றே சிரமமாக இருக்கும்.

பலர் இந்த ஒழுங்கு மாற்றத்திற்கு கூறும் காரணம், அப்போது தானாம் மற்றய இந்திய மொழிகளுக்குள்ளே மாற்றிக்கொள்ளலாமாம். naam thamingkilish ezhuthuvathaRku aangkila ezhuththukkaLaip paavikkiRoom. ithaRku oru mozhi maRRaya mozhikkaaha ezhuththu idam maaRi irukkaveeNdiya avasiyam illai. [நாம் தமிங்கிலிஷ் எழுதுவதற்கு ஆங்கில எழுத்துக்களைப் பாவிக்கிறோம். இதற்கு ஒரு மொழி மற்றய மொழிக்காக எழுத்து இடம் மாறி இருக்கவேண்டிய அவசியம் இல்லை.] சரி ஆங்கிலம் வேறு தமிழ் வேறு என்று சொல்லத் தொடங்காதீர்கள். method ஒன்றுதான்.

 

பாகம் – 13 >>

<< பாகம் – 11

_____
CAPital

No responses yet

Jul 07 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -11

Filed under Tamil Unicode

இக் கோப்புகள் “tamil-ulagam” என்னும் யாகூ குழுமத்தில் இருந்து எடுக்கப்பெற்றவை.

Tamil Encoding Newsletter3

Tamil Encoding Newsletter5

Tamil Encoding Newsletter7

 

பாகம் – 12 >>

<< பாகம் – 10

_____
CAPital

No responses yet

Jun 23 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -10

Filed under Tamil Unicode

1) ஒருங்குறி என்பது ஒரு இந்திய தகுதரம் அல்ல. உலக தகுதரம். அதனால், அனுஸ்வரா, விசர்க்கம் என்று தமிழ் எழுத்துக்களுக்கு உலக மேடையில் பெயர் வைக்கத் தேவையில்லை.

ஐயா உலக மேடையில் “தமிழ்” இன் உச்சரிப்பு “டமில்” [Tamil] என்று தான் இருக்கிறது. உலக மேடையில், ஆய்தத்தின் உச்சரிப்பு விசர்க்கம் என்றே இருக்கும்.

2) உலக மேடையில், தமிழ் எழுத்துக்கள் ஒழுங்கு மாறி வைக்கப்பட்டுள்ளது.

3) இந்தப் பிழைகளை, ஒருங்குறி ஒன்றியம் செய்யவில்லை. இந்திய அரசாங்கமே செய்தது.

வட மொழிகளில் உள்ள சத்தங்களை தமிழில் கொண்டுவருகிறோம் என்று கொண்டுவந்து தமிழ் எழுத்துக்களைக் கூட்டினார்கள். ஏன் உலகில் உள்ள எல்லா சத்தங்களுக்கும் தமிழில் ஒரு எழுத்து உருவாக்கி இருக்கலாமே? [சிங்களத்தில் உள்ளது போல்]

ஆகவே, அப்போதிலிருந்தே வடமொழிக்கு ஏற்பவாறே தமிழ் மாற்றியமைக்கப் பட்டு வருகிறது.

இதை வாசியுங்கள்: http://www.indiawebdevelopers.com/technology/oracle9i/sorting.asp


Conventionally, when character data is stored, the sort sequence is based on thenumeric values of the characters defined by the character encoding scheme. This is called a binary sort.

Binary sorts are the fastest type of sort, and produce reasonable results for the English alphabet because the ASCII and EBCDIC standards define the letters A to Z in ascending numeric value.

[Please note the point, the BINARY sorting is only possible because the letters are in order]

[Here is how our Tamil may be sorted]

A linguistic sort operates by replacing characters with numeric values that reflect each character’ s proper linguistic order. These numeric values are found in a table containing major and minor values.

இதற்கு கீழ் குறிப்பிடப் படும் முறைகள் எல்லாம், தமிழ் போன்ற [level-2] மொழிகளுக்கு. பாருங்கள் எவ்வளவு மேலதிக processing தேவை என்பதை.

காலப்போக்கில், இந்த நேர இடைவெளி வெகுவாக குறையும், ஆனால், இவை தேவை என்பது நிரந்தரமே.

****************************

Using linguistic indices you can provide the sophisticated sorting capabilities of a multilingual sort while achieving sorting performance nearly as good as a binary sort (which offers the best performance).

****************************

Binary sort is NOT possible for present day Tamil Unicode!

 

 

பாகம் – 11 >>

<< பாகம் – 09

_____
CAPital

No responses yet

Jun 14 2006


CAPitalZ

தமிழ் ஒருங்குறி ?! -9

Filed under Tamil Unicode

எத்தனை பேருக்கு உண்மையிலேயே ஒருங்குறி பிழையால் தான் தமிழ் இவ்வளவு பின்னடைவு என்று தெரியும்? உண்மையாக உரைக்கவும். இந்தப் பின்னடைவுக்கு காரணம் உணராமலே பலர் உள்ளர்.

கூகிள் இவ்வளவு பெரிதாக வருவதற்கு முன்னரே நான் ஒருங்குறி பற்றிக் கேள்விப் பட்டிருக்கிறேன். தமிழ் பிரச்சினை ஒருங்குறியில் தீரும் என்று பெரும் நம்பிக்கை. ஒருங்குறி என்பது வெறும் font மட்டும் அல்ல. அதற்கு மேலே ஒரு கணினியின் அடித்தள தகுதரம். அத்திவரத்திலேயே தமிழில் குளருபடியென்றால், சுவர்கள் எழுப்ப முடியாதென்றில்லை; ஆனால் weak ஆக இருக்கும்.

இப்படிப் பட்ட ஒருங்குறியிலேயே தமிழ் தெரியவில்லை சில மென்பொருளில். மற்றய மொழிகள் தெரியும் போது ஏன் தமிழ் தெரியவில்லை. நான் நினைத்தேன், தமிழ் உண்மையிலேயே ஒரு கடின மொழி. உயிர், மெய், நெடுங்கணக்கு என்று ஏதோ எதோ இருப்பதால், தமிழ் இவ்வாறு பிரச்சினையாய் இருக்கிறது என்று.

எனக்கு மட்டும் அல்ல, எனக்கு தெரிந்த வரையில் ஒருவருக்கும், தமிழின் கணினித் துரோகம் தெரிந்திருக்க வில்லை. உங்களுக்கும் தெரிந்திருந்ததோ தெரியவில்லை. பலர், தமிழை கணினியில் சும்மா ஒரு அருங்காட்சிப் பொருளாகத் தான் பார்த்தார்கள். நீங்களே கண்கூடாகப் பார்த்திருப்பீர்கள், எத்தனை இடங்களில் [ஒருங்குறியில்] தமிழ் பிழையாக தெரியும். எதேதோ வித்தியாசமான் எழுத்துக்கள் தமிழ் எழுத்துக்களுக்கு இடையே தெரியும். சில மென்பொருளில் முழுதாகத் தெரியாது. சில மென்பொருளில், தெரியும், ஆனால் எல்லா இடங்களிலும் தெரியாது. [கவனிக்கவும் - இவை திருத்தப்பட முடியாதென்று நான் சொல்லவில்லை]

ஐயா இவ்வளவு காலமும், நானே நினைத்திருந்தேன் தமிழ் மொழி கணினியில் ஒரு கடின மொழி என்றே. சின்னத்துறை சிறீவாஸ், இவர் ஒரு தமிழாராய்ச்சியாளர் tamil_araichchi, tamil-ulagam யாகூ குழுமங்களில் இவருடன் உரையாடலாம்். அவருடைய மின்வலைய முகவரி: http://www.araichchi.net/

இவர் ஒருமடலில் எழுதி இருந்தார், தமிழ் மிகவும் விஞ்ஞான பூர்வமாக வடிவமைக்கப் பட்டுள்ளது. சமஸ்கிருதமும் விஞ்ஞான பூர்வமே, ஆனால் அதையும் விட தமிழ் மேலும் விஞ்ஞான பூர்வமானது என்று. அவர் சொல்லியே தொல்காப்பியம் தான் உலக மொழிகளிலிலேயே மிகவும் பழைமாயன இலக்கண நூல் என்று தெரியவந்தது [ http://en.wikipedia.org/wiki/Tolkappiyam ]. அவர் சொன்னது உண்மையானால், தொல்காப்பியத்திலேயே உள்ளது, ஆய்தம், புள்ளி என்னும் சொற் பதங்களும் அவற்றுக்கான பாவனைகளும். அப்படியானால், “அனுஸ்வரா”, “விசர்க்கம்” எல்லாம் பிழை தானே. இதைப் பிழை என்று ஒத்துக் கொள்ளாமல், அதற்கு காரணம் கண்டுபிடிப்பதால் தான் எனக்கு கோபம் வருகிறது. இப்படித் தான், ஒருங்குறியிலும் பிழை உள்ளதை ஒத்துக் கொள்ளாமல், அதற்கு காரணம் கூறுகிறார்கள், இந்திய மொழிகளுக்குள்ளே “பண்ட மாற்று” [transiliteration] செய்யலாம் என்று. பண்ட மாற்று [transiliteration] செய்வதற்கு இந்தியாவிற்குள்ளேயே இருக்க வேண்டும் என்று அவசியமில்லை. அவர்கள் தான் துரோகம் செய்தார்கள் என்றால் ஏன் நீங்களும் அத் துரோகத்தை மூடி மறைக்கப் பார்கிறீர்கள்? உள் நோக்கம் என்ன? நீங்கள் என்ன ஃகிந்தி மொழி பிரதிநிதியோ (அ) பாதுகாவலனோ?

ஐயா பொய், சொன்னால் குற்றம்; உண்மை, சொல்லாவிட்டால் குற்றம்.

சின்னத்துறை சிறீவாஸ் சொன்னார், ஒருங்குறி வந்தால் தமிழின் அருமை தெரியும் என்று.

ஒருங்குறியை ஆராய்ந்து பார்த்தால் தான் தெரிகிறதே, அதற்குள்ளும் ஒர் துரோகம். [இதை தமிழே தெரியாதென்று நான் சொல்வதாக பிழையாக எடுக்க வேண்டாம்]

ஒரு பேச்சுக்கு, தமிழ் மொழியும் வேறொரு மொழியும் [OOM] ஒரே கட்டமைப்பு கொண்டவை என்று வைத்துக் கொள்வோம். ஒருங்குறியில், OOM சரியாக ஏற்றப்பட்டிருந்தால், OOM தமிழை விட எப்பொழுதும் efficiency கூடினதாகவே இருக்கும், கணினியைப் பொறுத்த வரையில். ஐயா அடித்தளம் பிழை என்றால், நீங்கள் என்ன தான் செய்தாலும் ஒரு மேலதிக மென்பொருளின் சேவை எல்லா செயற்பாட்டிலும் தேவையாக இருக்கும் அந்த அடித்தள பிரச்சினையை திருத்தி மற்ற செயற்பாட்டிற்கு கொண்டு சொல்ல.

தமிழுக்கும் கணினிக்கும் உள்ள வெகு தூரம் இத் துரோகச் செயலாலேயே என்ற செய்தி போய்ச் சேரவில்லை. ஏன்?

தமிழ் நாட்டில் தமிழ் ஆட்சி மொழியாக வைத்திருப்பது வெறும் அரசியல் நோக்கத்துக்காகவே என்று தான் சிந்திக்கத் தோன்றுகிறது. vote இக்கு தமிழ், மற்றய எல்லாம் எது இந்திய அரசாங்கம் கொடுக்கிறதோ அதை வாங்குவது. ஆனால் துரோகத்தை மூடி மறைக்க முற்படுபவர்களும் தமிழர்களே என்னும் போது தான் நெஞ்சு பொறுக்குதில்லை!

 

பாகம் – 10 >>

<< பாகம் – 08

_____
CAPital

No responses yet

பழைய இடுகைகள் »