පර්යේෂණ

දැනට ක්‍රියාත්මක පර්යේෂණ ව්‍යාපෘති

සිංහල කථන සංජානන පද්ධතිය

සිංහල භාෂාව සඳහා කථනය හඳුනා ගැනීමේ පද්ධතියක් (system) නිර්මාණය කිරීම මෙම ව්‍යාපෘතියෙහි අරමුණ වේ. අදාළ පද්ධතිය HTK toolkit යොදා ගනිමින් Hidden Markove Model අනුව සකස් කෙරෙයි.  

පර්යේෂණ පත්‍රිකා:

  1. Efficient use of training data for sinhala speech recognition using active learning 
  2. Continuous Sinhala Speech Recognizer 

සිංහල - දෙමළ යාන්ත්‍රික පරිවර්තනය

සිංහල-දෙමළ භාෂා දෙක සඳහා යාන්ත්‍රික පරිවර්තන මෙවලමක් නිර්මාණය කිරීම මෙම ව්‍යාපෘතියෙහි අරමුණයි. සිංහල භාෂාවෙන් දෙමළ භාෂාවටත් දෙමළ භාෂාවෙන් සිංහල භාෂාවටත් පරිවර්තනය කිරීම සඳහා නිර්මාණය වන මෙය සිංහල-දෙමළ භාෂකයින්ට අදහස් හුවමාරු කර ගැනීමෙහි ලා භාවිත කළ හැකි මෘදුකාංගයක් දක්වා දියුණු කිරීමට අදහස් කෙරේ.  

පර්යේෂණ පත්‍රිකා:

  1. Statistical Machine Translation from and into Morphologically Rich and Low Resourced Languages 
  2. Sinhala-Tamil Machine Translation: Towards better Translation Quality 
  3. Towards Sinhala Tamil machine translation

සිංහල පදිම විශ්ලේෂකය

අදාළ විස්තර ඉක්මනින් ඇතුළත් කෙරෙනු ඇත.

පර්යේෂණ පත්‍රිකාව: Evaluating a Machine Learning Approach to Sinhala Morphological Analysis

සිංහල - දෙමළ සමාන්තර වාග්සංහිතාව

සිංහල-දෙමළ භාෂා දෙකින් වචන මිලියනයක සමාන්තර වාක්‍ය ඇතුළත් වාග්සංහිතාවක් නිර්මාණය කිරීම මෙම ව්‍යාපෘතියේ අරමුණයි. එය සිංහල-දෙමළ භාෂා සඳහා පරිගණක ආධාරක පරිවර්තන කටයුතු සඳහා මෙන්ම අදාළ භාෂා දෙක සඳහා නිර්මාණය කෙරෙන යාන්ත්‍රික පරිවර්තන යෙදුම් සඳහා ද උපකාරී වෙයි.

ශ්‍රී ලංකා දෙමළ වාග්සංහිතාව

ශ්‍රී ලංකා දෙමළ භාෂාවෙන් වචන මිලියන තුනක වාග් සංහිතාවක් නිර්මාණය කිරීම මෙහි අරමුණයි. ශ්‍රී ලංකා දෙමළ භාෂාව පිළිබඳ කෙරෙන භාෂා අධ්‍යයන සඳහා මෙන්ම අදාළ භාෂා ව්‍යවහාරය සඳහා සිදු කෙරෙන පරිගණකමය වාග්විද්‍යා පර්යේෂණ සඳහා ද මෙය ප්‍රයෝජනවත් වෙයි.

සිංහල කථන වාග්සංහිතාව

ශ්‍රී ලංකා ගුවන් විදුලියෙහි පටිගත කළ ප්‍රවෘත්ති යොදා ගනිමින් සිංහල කථන වාග් සංහිතාවක් නිර්මාණය කිරීම මෙම ව්‍යාපෘතියෙහි අරමුණයි. වාගාලාප 20,000ක් පමණ එහි පෙළ පිටපත සමඟින් මෙහි අන්තර්ගත වෙයි. 

පර්යේෂණ පත්‍රිකාව: Developing a Speech Corpus for Sinhala Speech Recognition 

සිංහල පෙළ කථන මෘදුකාංගය

දෘශ්‍යාබාධිත සිංහල භාෂකයින්ට පරිගණකය භාවිතයේ දී උපකාරී වන (මිනිස් හඬ සහිත) පෙළ කථන මෘදුකාංගයක් සිංහල භාෂාව සඳහා නිර්මාණය කිරීම මෙම ව්‍යාපෘතියෙහි අරමුණයි. OpenMARY පෙළ කථන සංයෝගකය මත Unit selection ක්‍රමවේදය අනුගමනය කර මෙම සිංහල පෙළ කථනය නිර්මාණය කර ඇත.  

 

අවසන් වූ පර්යේෂණ ව්‍යාපෘති

සිංහල දෘශ්‍යාක්ෂර සංජානකය (මූලික අදියර)

මෙය ෆොන්ටය අනුව සිංහල දෘශ්‍යාක්ෂර හඳුනා ගැනීමේ පද්ධතියකි. KNN ක්‍රමය භාවිතයෙන් නිර්මාණය වූ මෙම පද්ධතිය ජනප්‍රිය ෆොන්ට හතරක් වන ‘Abhaya’, ‘Manel’ ‘Lakbima’ සහ ‘Divaina’ ෆොන්ටවල අක්ෂර හඳුනා ගැනීම සඳහා නිමවා ඇත. මෙහි නිරවද්‍යතාව ආසන්න වශයෙන් 85%කි. 

පර්යේෂණ පත්‍රිකාව: NLP Applications of Sinhala: TTS & OCR

ශික්ෂක භාෂා ඉගෙනුම් සැකිල්ල

ශික්ෂක යනු පරිගණකය ඇසුරු කර ගනිමින් භාෂාවල කථනය ඉගැන්වීම සඳහා නිර්මිත භාෂා ඉගැන්වුම් සැකිල්ලකි. මෙහි දී සංවාද උපයෝගී කර ගනිමින් අදාළ භාෂාවල කථනය ඉගැන්වෙන අතර ප්‍රාමාණික වාග්විද්‍යාඥයින් විසින් ඉදිරිපත් කෙරුණු භාෂා ඉගැන්වුම් විධික්‍රම අනුව මෙය නිර්මාණය වී ඇත. මෙම භාෂා ඉගැන්වුම් සැකිල්ල භාවිතා කොට සිංහලෙන් දෙමළ භාෂාව සහ ඉංග්‍රීසියෙන් සිංහල භාෂාව ඉගැන්වීමේ මෙවලම් දෙකක් නිර්මාණය කෙරිණි. එම මෙවලම්වල සම්පත් භාෂාව (source language) පහසුවෙන් වෙනස් කළ හැකි අතර භාෂා ගුරුවරුන්ට සිය ඉගැන්වීම කාර්යය සඳහා අධාරකයක් ලෙස ශික්ෂක භාෂා ඉගැන්වුම් සැකිල්ල භාවිතා කොට තමන් අභිමත භාෂාවන් ඉගැන්වීම සඳහා මෙවලම් සකස් කළ හැකි වෙයි.  

පර්යේෂණ පත්‍රිකාව: Content independent open-source language teaching framework 

සිංහල පරිගණක ව්‍යාකරණය (මූලික අදියර)

මෙය සිංහල භාෂාව සඳහා පරිගණකමය ව්‍යාකරණයක් සෑදීම අරමුණු කොට සිදු වූ ප්‍රයත්නයකි. මෙම පරිගණකමය ව්‍යාකරණය සිංහල භාෂාවේ සරල වාක්‍ය සඳහා සැකසුණු අතර අදාළ වාක්‍ය  සඳහා රුක් සටහන් දැක්වීමේ දී NLTK toolki යොදා ගැනිණි.

පර්යේෂණ පත්‍රිකාව: A Computational Grammar of Sinhala

කතාබහ - සිංහල පෙළ කථන මෘදුකාංගය

සිංහල පෙළ කථන පද්ධති නිර්මාණය කිරීම සඳහා පර්යේෂණ ප්‍රයත්න වාර්තා වුවද සිංහල භාෂාව සඳහා නිර්මාණය වූ පළමු වාණිජ මට්ටමේ පෙළ කථනය කතාබහ සිංහල පෙළ කථන මෘදුකාංගයයි. INFOTEL 2008 නව නිර්මාණ තරඟයේ දී හොඳම නව නිර්මාණය ලෙස මේ සඳහා සම්මාන හිමි විය. 

පර්යේෂණ පත්‍රිකා: 

  1. Festival-si: A Sinhala Text-to-Speech System
  2. Sinhala Grapheme-to-Phoneme Conversion and Rules for Schwa Epenthesis
  3. A Rule Based Syllabification Algorithm for Sinhala 

දෙමළ දෘශ්‍යාක්ෂර සංජානකය

අහරමරියි දෙමළ දෘශ්‍යාක්ෂර සංජානකය Tesseract දෘශ්‍යාක්ෂර සංජානන එන්ජිම භාවිත කර නිර්මාණය වූවකි. අදාළ නිර්මාණයේ දී දෙමළ අක්ෂරවල ලක්ෂණ හඳුනා ගෙන වඩා නිරවද්‍ය ප්‍රතිඵලය ලබා ගැනීම සඳහා ක්‍රමවේද කිහිපයක් භාවිත කොට ඇති අතර මෙහි නිරවද්‍යතා අගය ආසන්න වශයෙන් 81%කි. 

පර්යේෂණ පත්‍රිකාව: Developing a commercial grade Tamil OCR for recognizing font and size independent text