Jun 23 2006

CAPitalZ

தமிழ் ஒருங்குறி ?! -10

Posted at 1:13 pm under Tamil Unicode

1) ஒருங்குறி என்பது ஒரு இந்திய தகுதரம் அல்ல. உலக தகுதரம். அதனால், அனுஸ்வரா, விசர்க்கம் என்று தமிழ் எழுத்துக்களுக்கு உலக மேடையில் பெயர் வைக்கத் தேவையில்லை.

ஐயா உலக மேடையில் “தமிழ்” இன் உச்சரிப்பு “டமில்” [Tamil] என்று தான் இருக்கிறது. உலக மேடையில், ஆய்தத்தின் உச்சரிப்பு விசர்க்கம் என்றே இருக்கும்.

2) உலக மேடையில், தமிழ் எழுத்துக்கள் ஒழுங்கு மாறி வைக்கப்பட்டுள்ளது.

3) இந்தப் பிழைகளை, ஒருங்குறி ஒன்றியம் செய்யவில்லை. இந்திய அரசாங்கமே செய்தது.

வட மொழிகளில் உள்ள சத்தங்களை தமிழில் கொண்டுவருகிறோம் என்று கொண்டுவந்து தமிழ் எழுத்துக்களைக் கூட்டினார்கள். ஏன் உலகில் உள்ள எல்லா சத்தங்களுக்கும் தமிழில் ஒரு எழுத்து உருவாக்கி இருக்கலாமே? [சிங்களத்தில் உள்ளது போல்]

ஆகவே, அப்போதிலிருந்தே வடமொழிக்கு ஏற்பவாறே தமிழ் மாற்றியமைக்கப் பட்டு வருகிறது.

இதை வாசியுங்கள்: http://www.indiawebdevelopers.com/technology/oracle9i/sorting.asp


Conventionally, when character data is stored, the sort sequence is based on thenumeric values of the characters defined by the character encoding scheme. This is called a binary sort.

Binary sorts are the fastest type of sort, and produce reasonable results for the English alphabet because the ASCII and EBCDIC standards define the letters A to Z in ascending numeric value.

[Please note the point, the BINARY sorting is only possible because the letters are in order]

[Here is how our Tamil may be sorted]

A linguistic sort operates by replacing characters with numeric values that reflect each character’ s proper linguistic order. These numeric values are found in a table containing major and minor values.

இதற்கு கீழ் குறிப்பிடப் படும் முறைகள் எல்லாம், தமிழ் போன்ற [level-2] மொழிகளுக்கு. பாருங்கள் எவ்வளவு மேலதிக processing தேவை என்பதை.

காலப்போக்கில், இந்த நேர இடைவெளி வெகுவாக குறையும், ஆனால், இவை தேவை என்பது நிரந்தரமே.

****************************

Using linguistic indices you can provide the sophisticated sorting capabilities of a multilingual sort while achieving sorting performance nearly as good as a binary sort (which offers the best performance).

****************************

Binary sort is NOT possible for present day Tamil Unicode!

 

 

பாகம் – 11 >>

<< பாகம் – 09

_____
CAPital

No responses yet




Trackback URI | Comments RSS

கருத்து ஒன்றை விடவும்


நீங்கள் இயந்திரம் இல்லை (கசடு [Spam] உருவாக்கும் மென்பொருள் அல்ல) என்று நிரூபிக்க, கீழே தெரியும் சொல்லை தட்டச்சுங்கள்.
நீங்கள் இங்கு தெரியும் முதல் தமிழ் சொல்லையோ அல்லது இரண்டாவது ஆங்கில சொல்லையோ தட்டச்சலாம். ஆனால், இரண்டையும் சேர்த்து தட்டச்சாதீர்கள்.
கசடு எதிர்மறை (Anti-Spam) படம்