ইউনিকোড কি?

ইউনিকোড কি?

ইউনিকোড হল সার্বজনীন অক্ষর এনকোডিং সিষ্টেম যাহা ইউনিকোড কনসোর্টিয়াম দ্বারা রক্ষণাবেক্ষণ করা হয়। ইউনিকোড কনসোর্টিয়াম সকল আধুনিক কম্পিউটিং সিস্টেমের জন্য পাঠ্যের উপযোগী এই এনকোডিং পরিষেবাগুলি এবংসফ্টওয়্যার আন্তর্জাতিকীকরণের প্রধান সংস্থা। এটি 16 বিটের আলফা নিউমেরিক কোড যার পূর্ণনাম Universal Code । এই কোডের মাধ্যমে 2^¹⁶ বা 65,536 টি অদ্বিতীয় চিহ্নকে নির্দ্দিষ্ট করা যায়।

প্ল্যাটফর্ম, ডিভাইস, অ্যাপ্লিকেশন বা ভাষা যাই হোক না কেন ইউনিকোড স্ট্যান্ডার্ড প্রতিটি অক্ষরের জন্য একটি অনন্য নম্বর প্রদান করে।

অর্থাৎ, ইউনিকোড বিভিন্ন স্ক্রিপ্ট, প্রতীক, ইমোজি এবং বিশেষ অক্ষরগুলির প্রতিটির জন্য একটি অনন্য কোড পয়েন্ট নির্ধারণ করে।

ইউনিকোড আবিষ্কৃত হওয়ার আগে, শত শত বিভিন্ন সিস্টেম ছিল, যাকে ক্যারেক্টার এনকোডিং বলা হয়। এই সকল সিষ্টেমের যথেষ্ট সীমাবদ্ধতা ছিল । বিশ্বের সমস্ত ভাষা কভার করার জন্য এই সকল সিষ্টেম যথেষ্ট অক্ষর ধারণ করতে পারেনি । যেমন- বিশেষ করে ASCII-এর অক্ষর এনকোডিং মানগুলির সীমাবদ্ধতাকে মোকাবেলা করার জন্য তৈরি করা হয়েছিল ইউনিকোড ।

ইউনিকোড বিশ্বের প্রধান ভাষা, ঐতিহাসিক লিপি, গাণিতিক প্রতীক এবং প্রযুক্তিগত চিহ্ন সহ অক্ষরের একটি বিশাল পরিসরকে সমর্থন করে। বর্তমানে, ইউনিকোড অনেকগুলি স্ক্রিপ্ট (বিশেষ করে ল্যাটিন লিপি) কভার করে যা প্রচুর সংখ্যক ভাষা লিখতে ব্যবহৃত হয়।

ইউনিকোড অক্ষর তিনটি এনকোডিং ফর্মের একটিতে উপস্থাপন করা হয় : একটি 32-বিট ফর্ম (UTF32), একটি 16-বিট ফর্ম (UTF-16), এবং একটি 8-বিট ফর্ম (UTF-8)। 8-বিট, বাইট-ভিত্তিক ফর্ম, UTF-8, বিদ্যমান ASCII-ভিত্তিক সিস্টেমগুলির সাথে ব্যবহারের সহজতার জন্য ডিজাইন করা হয়েছে।

এই এনকোডিং ফর্ম গুলি নির্ধারণ করে কোড পয়েন্টগুলিকে বাইনারি ডেটা হিসাবে উপস্থাপন করা হয়।

নিচে তিনটি এনকোডিং ফর্ম বর্ণনা করা হলো।

UTF-8 : (৮ বিট ইউনিকোড ট্রান্সফরমেশন ফরমেট) :

UTF-8 একটি অক্ষর এনকোডিং ফর্ম যা ইউনিকোডে অক্ষরগুলিকে উপস্থাপন করতে ব্যাপকভাবে ব্যবহৃত হয়। এখানে একটি অক্ষরকে ১ থেকে ৪ বাইটের মধ্যে উপস্থাপন করা হয়।

2-বাইট সিকোয়েন্স: U+0080 থেকে U+07FF রেঞ্জের অক্ষরগুলি (যাতে সাধারণ ল্যাটিন-ভিত্তিক বর্ণমালা এবং চিহ্ন রয়েছে) দুটি বাইট দ্বারা প্রতিনিধিত্ব করা হয়।

3-বাইট সিকোয়েন্স: U+0800 থেকে U+FFFF রেঞ্জের অক্ষরগুলি (যা স্ক্রিপ্ট এবং অক্ষরগুলির একটি বিস্তৃত পরিসর কভার করে) তিনটি বাইট দ্বারা উপস্থাপিত হয়।

4-বাইট সিকোয়েন্স: U+10000 থেকে U+10FFFF (যার মধ্যে অক্ষর এবং চিহ্ন রয়েছে) রেঞ্জের অক্ষরগুলি চার বাইট দ্বারা উপস্থাপিত হয়।

অর্থাৎ এ ফরমেট অনুযায়ী প্রতিটি বর্ণের জন্য U+০০০০ থেকে U+10FFFF এর মধ্যে একটি সংখ্যা নির্দ্দিষ্ট করে দেওয়া আছে। যেমন- U+০০41 হচ্ছে ইংরেজী ‘A’ অক্ষর। U+0995 হচ্ছে বাংলা ‘ক’ অক্ষর U+0996 হচ্ছে বাংলা ‘খ’ অক্ষর যা রেঞ্জের মধ্যে অবস্থিত।

ইউনিকোড
Bengali — Unicode Character Table

UTF-8 ইন্টারনেটে বহুল ব্যবহৃত এনকোডিং পদ্বতী।

UTF-16 (16-বিট ইউনিকোড ট্রান্সফরমেশন ফরম্যাট):

UTF-16 হল একটি অক্ষর এনকোডিং স্কিম যা 16 বিট ব্যবহার করে ইউনিকোড অক্ষর উপস্থাপন করে।

UTF-32 (32-বিট ইউনিকোড ট্রান্সফরমেশন ফরম্যাট) :

UTF-32 হল একটি অক্ষর এনকোডিং স্কিম যা 32 বিট ব্যবহার করে ইউনিকোড অক্ষর উপস্থাপন করে। এটি একটি নির্দিষ্ট দৈর্ঘ্যের এনকোডিং, যেখানে প্রতিটি অক্ষর একটি একক 32-বিট কোড ইউনিটের সাথে এনকোড করা হয়।

ইউনিকোড কনসোর্টিয়াম সংস্থা ১৯৯১ সালে ২৪ টি ভাষা নিয়ে প্রথম সংষ্করন ১.০.০ চালু করেন। বর্তমানে এর সংষ্করন হলো ইউনিকোড 15.0 । সংস্করণ 15.1, সেপ্টেম্বর 2023-এ প্রকাশের জন্য নির্ধারিত হয়।

পৃথিবীর প্রায় সব ভাষার লেখালেখিকে একটি পদ্বতীতে সমন্বিত করার কোড হলো ইউনিকোড। এই পদ্বতীতে বিশে^র সকল ভাষাকে কোডভুক্ত করা সম্ভব হয়েছে।

ইউনিকোড কি?

Related :

কোড কি? প্রকারভেদ

অনুবাদকপ্রোগ্রাম কি? কতপ্রকার ওকি কি?

Popular Posts...

Hello world!

UTF-8 : (৮ বিট ইউনিকোড ট্রান্সফরমেশন ফরমেট) :

ইউনিকোডBengali — Unicode Character Table

UTF-16 (16-বিট ইউনিকোড ট্রান্সফরমেশন ফরম্যাট):

UTF-32 (32-বিট ইউনিকোড ট্রান্সফরমেশন ফরম্যাট) :

ইউনিকোড
Bengali — Unicode Character Table