சமஸ்கிருதம் கம்ப்யூட்டர் கோடிங் செய்ய ஏற்ற மொழி என்பது எந்த அளவு உண்மை?

கணிப்பொறி அறிவியல் அல்லது பொறியியலை பள்ளியிலோ கல்லூரியிலோ பாடமாகப் படித்தவர்கள் மட்டுமே கணினியைக் கையாள முடியும் எனும் நிலையும் சமீப ஆண்டுகளில் மாறியுள்ளது.

கணிப்பொறிகளைக் கையாள்வது பற்றிய அறிவு பரவப் பரவ, அது பற்றிய உறுதிப்படுத்தப்படாத தகவல்கள் பலவும் பரவத் தொடங்கின.

அவற்றுள் மிகவும் பிரபலமான புரளி சமஸ்கிருதம்தான் கணிப்பொறிக்கு ஏற்ற மொழி என்பது.

மென்பொருட்கள் கணினிக்காக உருவாக்கப்பட்ட நிரல் மொழிகளின் (programming languages) குறியீடுகள் மூலமே உருவாக்கப்படுகின்றன எனும்போதும், சமஸ்கிருதம் கணிப்பொறிக்கு ஏற்ற மொழி என்பது சமூக ஊடகங்கள் வலுப்பெற்ற காலத்துக்கு முன்னும் பின்னும் தொடர்ந்து பரப்பப்பட்டு வருகிறது.

ஆனால், சமஸ்கிருத மொழியின் குறியீடுகள் மூலம் உருவாக்கப்பட்ட மென்பொருள் என்றோ, சமஸ்கிருதச் சொற்களைக் கொண்டு மென்பொருட்கள் நிரல் செய்யப்படுவதற்கான வழிமுறை என்னவென்றோ இதுவரை யாரும் தெளிவுபடுத்தவில்லை.

நிரல் மொழிகளுக்கு பதிலாக சமஸ்கிருதம் மூலமாகவோ, வேறு ஏதேனும் மொழிகளின் மூலமாகவோ மென்பொருட்களை உருவாக்க முடியும் என்பது இதுவரை சாத்தியப்படவில்லை.

இந்தப் புரளி எப்படித் தொடங்கியது?

1985இல் வெளியான AI Magazine எனும் செயற்கை நுண்ணறிவு குறித்த சஞ்சிகையில், அமெரிக்காவில் உள்ள ரிசர்ச் இன்ஸ்டிட்யூட் ஃபார் அட்வான்ஸ்டு கம்ப்யூட்டர் சயின்ஸ் (Research Institute for Advanced Computer Science) எனும் நிறுவனத்தைச் சேர்ந்த ரிக் ப்ரிக்ஸ், ‘சமஸ்கிருதம் மற்றும் செயற்கை நுண்ணறிவில் அறிவை வெளிப்படுத்துதல்’ (Knowledge Representation in Sanskrit and Artificial Intelligence) எனும் ஆய்வுக் கட்டுரையை வெளியிட்டார்.

மனிதர்கள் பயன்படுத்தும் வாக்கியக் கட்டமைப்புகளை உள்ளீடுகளாக கணினியில் செலுத்தினால் அதை அவ்வாறாகவே புரிந்துகொள்ளும் செயற்கை நுண்ணறிவுக்கு ஏற்ற மொழி குறித்து அந்தக் கட்டுரையில் அவர் விவரித்துள்ளார். உதாரணமாக ‘ஆசிய கண்டத்தில் எத்தனை நாடுகள் உள்ளன?’ என்ற கேள்வியை நீங்கள் கணினியிடம் கேட்டால், அதைப் புரிந்துகொண்டு, அதற்கான பதிலை கணினி உங்களுக்கு வழங்க ஏற்ற மொழி உள்ளதா என்பதே அதன் சாராம்சம்.

“கணினி புரிந்துகொள்ளும் வகையில் வாக்கியக் கட்டமைப்பை ஒன்றுக்கும் மேற்பட்ட மொழிகள் கொண்டுள்ளன. 1,000 ஆண்டுகளுக்கும் மேலான தொடர்ச்சியை உடைய சமஸ்கிருத மொழி அத்தகைய வாக்கியக் கட்டமைப்பை கொண்டுள்ளது,” என்று ரிக் ப்ரிக்ஸ் குறிப்பிடுகிறார்.

இன்றைய நிலை என்ன?

ரிக் ப்ரிக்ஸ் இந்தக் கட்டுரையை எழுதிய ஆண்டு 1985. கூகுள், யாஹூ போன்ற தேடுபொறிகள் எதுவும் இணையத்தில் அறிமுகம் செய்யப்படாத காலம் அது.

ஆனால், இப்போது தமிழ், ஆங்கிலம், மலையாளம் என எந்த மொழியில் உள்ள வாக்கியத்தை உள்ளீடாகக் கொடுத்தாலும் அதைப் புரிந்துகொண்டு அதற்கு ஏற்ற வகையில் முடிவுகளை வழங்கும் அளவுக்கு தொழில்நுட்பம் வளர்ந்துள்ளது.

மனிதர்கள் பேசும் மொழிகளை அந்தக் கட்டமைப்பிலேயே (language syntax) செயற்கை நுண்ணறிவைக் கொண்டு கணினிகளால் புரிந்துகொள்ள முடியாது என்று கருதப்படுவது மொழியியல் மற்றும் செயற்கை நுண்ணறிவு ஆகிய துறைகளில் செய்யப்பட்டுள்ள பல ஆய்வுகளை புறந்தள்ளும் வகையில் அமைந்துள்ளன என்று தனது கட்டுரையில் ரிக் ப்ரிக்ஸ் விவரிக்கிறார்.

ஆனால், அவர் குறிப்பிட்டுள்ளபடி சமஸ்கிருதம் உள்ளிட்ட மொழிகளின் கட்டமைப்பு மட்டுமே செயற்கை நுண்ணறிவுக்கு ஏற்ற வகையில் இல்லை. எல்லா மொழிகளின் கட்டமைப்பையும் கணினிகள் தற்போது புரிந்து கொள்கின்றன. சௌதி அரேபியாவின் குடியுரிமை பெற்றுள்ள சோஃபியா எனும் இந்த ரோபோ ஆங்கிலத்தில் சரளமாக உரையாடும் வகையில் செயற்கை நுண்ணறிவு பெற்றுள்ளது.

உதாரணமாக ‘ஜப்பானின் தலைநகரம் எது’ அல்லது ‘What is the capital of Japan’ என்று எந்த மொழியில் நீங்கள் கூகுள், யாஹூ போன்ற தேடு பொறியில் தேடினாலும் டோக்கியோ நகரம் பற்றிய தகவல்கள் உங்கள் கணினியின் திரையில் பட்டியலிடப்படும். காரணம் இரு மொழிகளையும், அவற்றின் வாக்கியக் கட்டமைப்புகளையும் தேடு பொறிகள் புரிந்துகொள்ளும் அளவுக்கு தொழில்நுட்பம் வளர்ந்துள்ளது.

இப்போது மனிதர்களுடன் உரையாடும் அளவுக்கு திறன் உள்ள ரோபோக்கள் செயற்கை நுண்ணறிவுத் தொழில்நுட்பம் மூலம் உருவாக்கப்பட்டுள்ளன.

அந்த அடிப்படையில் பார்த்தாலும் மென்பொருட்களை உருவாக்க மட்டுமல்லாது, செயற்கை நுண்ணறிவுத் தொழில்நுட்பத்தின் வளர்ச்சியும் சமஸ்கிருதம் அல்லது வேறு எந்த ஒரு மொழியைச் சார்ந்தும் இல்லை என்றும், மனிதர்கள் பேசும் எந்த ஒரு மொழியையும் உள்ளீடாகக் கொடுத்து அதே மொழியில் கணினி அல்லது ரோபோ போன்ற இயந்திரத்திடம் இருந்து பதிலைப் பெரும் வகையில் நிரல்மொழிக் குறியீடுகள் மூலம் செய்ய முடியும் என்பதும் தெளிவாகிறது.

மனித மொழி – இயந்திர மொழி

கையாள்பவர் பிறப்பிக்கும் உத்தரவுகளை கணினி நிறைவேற்றச் செய்யும் மென்பொருட்களை உருவாக்க நிரல்மொழிக் (programming language) குறியீடுகள் (coding) பயன்படுத்தப்படுகின்றன.

இந்த நிரல் மொழிகள் பெரும்பாலும் ஆங்கிலச் சொற்களைக் கொண்டு உருவாக்கப்பட்டுள்ளன எனும்போதிலும், தமிழ், வங்கம் போன்ற வேறு மொழிகளிலும் உருவாக்கப்பட்டுள்ளன.

உதாரணமாக C அல்லது C++ போன்ற நிரல் மொழிகளில் ‘Print’ என்று வழங்கப்படும் கட்டளை, ‘எழில்’ என்ற பெயரில் தமிழில் உருவாக்கப்பட்டுள்ள நிரல் மொழியில் ‘பதிப்பி’ என்று வழங்கப்படுகிறது.

நிரல்மொழிக் குறியீடுகள் மனிதர்கள் பேசும் எந்த மொழியில் இருந்தாலும் அந்தக் குறியீடுகள் பணிக்கும் வேலையைப் புரிந்துகொண்டு அவற்றைக் கணினிகள் மற்றும் கணினியுடன் இணைக்கப்பட்ட இயந்திரங்கள் நிறைவேற்றியே வருகின்றன.

சமஸ்கிருத எழுத்துகள் மற்றும் எண்கள்

ஆங்கிலம் தவிர்த்த மொழிகளில் கணிப்பொறி ஆராய்ச்சி அதிவேகத்தில் நடந்து, அதே வேகத்தில் பயன்பாட்டில் மாற்றங்களும் நடந்துவரும் சூழலில் உலகில் எழுத்து வடிவம் உள்ள அனைத்து மொழிகளிலும் நிரல்மொழிகள் உருவாக்கப்படவில்லை என்றாலும் பெரும்பான்மையாக தொழில்நுட்பப் புழக்கத்தில் இருக்கும் மொழிகளில் கணினிகளுக்கான நிரல் மொழிகள் எதிர்வரும் ஆண்டுகளில் உருவாக வாய்ப்புண்டு.

அது நிகழும்போது கணினிக்கு ஏற்ற மொழி என்ற குறிப்பிட்ட ஒரு மொழி இருக்காது.

நிரல்மொழிக் குறியீடுகளை கணினி இயந்திர மொழியாக மாற்றி (machine language), எந்தச் செயலைச் செய்யுமாறு பணிக்கப்படுகிறதோ அதைக் கணினி செய்கிறது.

அது கூகுளில் எதையாவது தேடுவதாக இருக்கலாம், கூட்டல் கணக்குக்கு விடை சொல்வதாக இருக்கலாம், உங்களுக்குப் பிடித்த பாடலை இசைக்கச் செய்வதாகவும் இருக்கலாம்.

இந்தக் கட்டளைகளை கணினிக்கு புரிந்துகொள்ள வைக்க நிரல் மொழிகளால் மட்டுமே முடியும். கணினி அல்லது ரோபோ போன்ற வேறு இயந்திரம் எதையும் மனிதர்கள் பேசும் மொழிகளைப் பேசவோ, எழுதவோ வைக்க வேண்டுமானாலும் நிரல்மொழிகளே தேவை.

ஆங்கிலம், தமிழ், சமஸ்கிருதம், மாண்டரின் என மனிதர்கள் பேசும் மொழிகளின் சொற்களைக் கொண்டு நிரல் மொழிக் குறியீடுகள் உருவாக்கப்படாவிட்டால் எவ்வளவு இனிமையான, கவித்துவமான மனித மொழியில் சொன்னாலும் அது இயந்திரத்துக்குப் புரியாது.

BBC