සම්පත් හා මෙවලම්

මෙවලම්

සබැඳි යෙදුම්

සුබස අකුරු විනිස පිරික්සුව

සුබස අකුරු විනිස පිරික්සුව යනු යුනිකෝඩ් ක්‍රමයට සිංහල භාෂාවෙන් ලියා ඇති ලියවිල්ලක අක්ෂර වින්‍යාසය පරීක්ෂා කර ගැනීම සඳහා භාවිත කළ හැකි සබැඳි යෙදුමකි. යුනිකෝඩ් නොවන ෆොන්ට් භාවිතයෙන් ලියූ ලේඛන සඳහා මෙය සහාය නොදක්වන අතර ඔබේ ලේඛනයේ සිංහල අක්ෂර වින්‍යාසය පරීක්ෂා කර ගැනීම සඳහා මෙය ඉතා පහසුවෙන් යොදා ගත හැකි වේ.

සිංහල සහ දෙමළ ෆොන්ට් පරිවර්තක

මෙම සබැඳි ෆොන්ට් පරිවර්තන මෙවලම මගින් යුනිකේත නොවන ෆොන්ට් භාවිතයෙන් ලියූ ලියවිල්ලක් යුනිකේත භාවිතයෙන් ලියූ ලියවිල්ලක් බවට පරිවර්තනය කළ හැකි වේ. මෙය ඩීඑල්-මානෙල්, එෆ්එම්-අභය, තිබස්, කපුටා සහ අමාලි යන සිංහල ෆොන්ට සඳහා මෙන්ම බාමිනී දෙමළ ෆොන්ටය සඳහා පහසුකම් සපයයි. 

සිංහල යතුරු පුවරු

සිංහල භාෂාවෙන් යතුරු ලියනය කිරීම පහසු කිරීම සඳහා මෙහි යතුරු පුවරු දෙකක් වෙයි. එනම් සබැඳි යතුරු පුවරුව හා ශබ්දිම යතුරු පුවරුවයි. ඉන් සබැඳි යතුරු පුවරුව මූසිකය පමණක් භාවිත කරමින් යතුරු ලියනය කිරීම සඳහා උපකාරී වන අතර ඉංග්‍රීසි අකුරු භාවිත කරමින් යතුරු ලියනය කර එය සිංහල ක්‍රමයට පරිවර්තනය කර ගැනීම සඳහා ශබ්දිම යතුරු පුවරුව උපකාරී වෙයි. 

 

Stand Alone Applications

සිංහල පෙළ කථන මෘදුකාංගය

‘Voice-Si’ යනු MaryTTS උපයෝගී කර ගෙන නිමැවූ සිංහල පෙළ කථන මෘදුකාංගයකි. මෙය SpeechHub යොදා ගනිමින් NVDA තිර කථනය සමඟ අනුකූලනය කිරීමේ හැකියාව පවතින අතර දශ්‍යාබාධිත සිංහල භාෂකයින්ට පරිගණකය භාවිතා කිරීමේ ආධාරකයක් වශයෙන් භාවිත කළ හැකි ය. 

භාෂා ඉගෙනුම් මෙවලම (සිංහලෙන් දෙමළ)

මෙය සිංහල මාධ්‍යයෙන් දෙමළ භාෂාව ඉගෙනීම සඳහා නිර්මිත භාෂා ඉගෙනුම් මෙවලමකි. මෙහි සංවාද ඇසුරින් සැකසුණු පාඩම් 10ක් ඇතුළත් වන අතර එම පාඩම් ඉදිරිපත් කිරීම සඳහා ඊට අදාළ ශබ්ද, පින්තූර සහ විග්‍රහ කිරීම් අඩංගු කර තිබේ. එම පාඩම් 10 මහාචාර්ය ජේම්ස් ඩබ්ලිව්. ගෙයර්, මහාචාර්ය සුසීන්දිරරාජා සහ මහාචාර්ය ඩබ්ලිව්. එස්. කරුණාතිලක යන වියතුන් විසින් සමාපාදිත ‘An Introduction to Spoken Tamil’ කෘතියෙහි සිංහල පරිවර්තනයෙන් (ව්‍යවහාර දෙමළ භාෂා ප්‍රවේශය – පරිවර්තනය: මහාචාර්ය වි.මු. විජේරත්න) උපුටා ගැනිණි.

භාෂා ඉගෙනුම් මෙවලම (ඉංග්‍රීසියෙන් සිංහල)

මෙය ඉංග්‍රීසි මාධ්‍යයෙන් සිංහල භාෂාව ඉගෙනීම සඳහා නිර්මිත භාෂා ඉගෙනුම් මෙවලමකි. මෙහි සංවාද ඇසුරින් සැකසුණු පාඩම් 15ක් ඇතුළත් වන අතර එම පාඩම් ඉදිරිපත් කිරීම සඳහා ඊට අදාළ ශබ්ද, පින්තූර සහ විග්‍රහ කිරීම් අඩංගු කර තිබේ. 

සිංහල වර්ණ ඛණ්ඩකය

මෙය සිංහල යුනිකේත භාවිතයෙන් ලියූ ලියවිල්ලක් ශබ්ද ඛණ්ඩමය ලියවිල්ලක් බවට අනුවර්තනය කිරීමේ මෙවලමකි. මෙම මෙවලමට ඇතුළු කළ ලියවිල්ලට අදාළ ශබ්ද අනුවර්තනය, වචන අනුව සහ එම වචනවල ඇති වර්ණ අනුව (වරහන් යොදා) වෙන් වුණු ප්‍රතිදානයක් ලෙස ලැබෙයි. 

‘අහරමරියි’ දෙමළ දෘශ්‍යාක්ෂර සංජානකය

මෙය දෙමළ දෘශ්‍යාක්ෂර සංජානන පද්ධතියකි. මෙමගින් පින්තූරයක් ලෙස පවතින දෙමළ අක්ෂර පරිගණකයට හඳුනා ගත හැකි අක්ෂර බවට පරිවර්තනය කළ හැකි අතර මෙය .jpg ගොනු සඳහා සහාය දක්වයි. ප්‍රතිදාන පෙළ ආකෘති රහිතව දෙමළ යුනිකෝඩ් අක්ෂරවලින් ලබා දෙයි. 

සිංහල/දෙමළ වාග්සංහිතා විශ්ලේෂකය

සිංහල සහ දෙමළ භාෂාවල භාවිතය අධ්‍යයනය කිරීම සඳහා යොදා ගත හැකි සෙවුම් මෙවලමකි. මෙය භාෂා විශ්ලේෂණය සඳහා රුචිකත්වයක් ඇති පර්යේෂකයින්ට මහෝපකාරී වෙයි. 

පරිවර්තන මතකය මෙවලම

සිංහල – දෙමළ භාෂා පරිවර්තන කාර්යයෙහි නියැලෙන පුද්ගලයින් සඳහා උපකාරී වන මෙම මෙවලම පෙර පරිවර්තන භාවිත කර ගනිමින් නව පරිවර්තන සඳහා ඉඟි සපයයි. පරිවර්තන කාර්යය කාර්යක්ෂම කර ගැනීම සඳහා මෙන්ම අදාළ භාෂා පරිවර්තන කාර්යයෙහි දී ඒකමිතියක් පවත්වා ගැනීම සඳහා ද මෙය මහඟු අනුබලයක් වේ. 

සිංහල සහ දෙමළ ෆොන්ට් පරිවර්තක මෘදුකාංග

මෙය යුනිකේත නොවන ෆොන්ට් භාවිතයෙන් ලියූ ලේඛන යුනිකේත මගින් ලියූ ලේඛන බවට පරිවර්තනය කිරීමේ යෙදුමකි. මෙමගින් යුනිකේත නොවන සිංහල ෆොන්ට් 26ක් සහ දෙමළ ෆොන්ට් 4ක් සඳහා පහසුකම් සපයයි. 

‘ඉඟිය’ ඉංග්‍රීසි - සිංහල ශබ්දකෝෂ ඈඳුම

ඉඟිය යනු ෆයර්ෆොක්ස් (Firefox) වෙබ් බ්‍රව්සරය හෝ තන්ඩබර්ඩ් (Thunderbird) මෘදුකාංගය සඳහා ඈඳිය හැකි ශබ්දකෝෂයකි. එමගින් මූලිකව ම සිදු කරනුයේ ඔබ කියවන ඉංග්‍රීසි වෙබ් පිටුවල ඇති නොතේරෙන වදන්හි සිංහල තේරුම අවම ආයාසයකින් බලා ගැනීමට සැලැස්වීමයි. මෙම ඈඳුම ෆයර්ෆොක්ස් බ්‍රව්සරයේ හෝ තන්ඩබර්ඩ්හි ස්ථාපිත කිරීමෙන් පසු, ඔබ කළ යුත්තේ ඔබට නොතේරෙන ඉංග්‍රීසි වදන මත මූසික දර්ශකය (mouse pointer) රැඳවීම පමණි. ක්‍ෂණිකව ඉංග්‍රීසි වදනට අදාළ සිංහල තේරුම එම වදනට පහළින් දිස්වෙනු ඇත. ඉංග්‍රීසි වදනින් මූසික දර්ශකය ඉවත් කර ගත් වහා ම තේරුම අදෘශ්‍යමාන වේ. එනම් යම් වෙබ් පිටුවක අන්තර්ගතය කියවීමට කිසිම බාධාවක් නොමැති ව නොතේරන ඉංග්‍රීසි වදන්වල සිංහල තේරුම් බලා ගැනීමට මෙම මෘදුකාංගය ඉඩ ප්‍රස්ථාව සලස්වා දෙයි. ඈඳුම් මෘදුකාංගය ස්ථාපනය කර ගත් දා පටන් අන්තර්ජාලයේ ඉංග්‍රීසි බසින් ඇති වෙබ් පිටු කියවීමේ දී ඉංග්‍රීසි-සිංහල ශබ්දකෝෂයක් භාවිත කිරීමට අවශ්‍ය නොවේ. 

‘ඉඟිවදන’ සිංහල ස්වයං පෙළ පිරික්සුම් මෘදුකාංගය

ඉඟිවදන සිංහල ස්වයං පෙළ පිරික්සුම් මෘදුකාංගය (Sinhala Predictive Text Input System) ඇන්ඩ්‍රොයිඩ් මෙහෙයුම් පද්ධතිය සඳහා නිර්මාණය කෙරුණු මෘදුකාංගයකි. මෙය භාවිත කිරීමෙන් පරිශීලකයින්ට සිංහලෙන් කෙටි පණිවිඩ, විද්‍යුත් තැපෑල පණිවිඩ යැවිය හැකි අතර අන්තර්ජාලය සිංහලෙන් ගවේෂණය කිරීමේ හැකියාව ද පවතී. මෙහි ඇති එක් විශේෂතාවක් නම් සිංහලෙන් යතුරුලියනය කිරීමේ හැකියාව පැවතීමයි. තවද මෙම මෘදුකාංගය මෙහෙයුම් පද්ධතියෙන් පරිබාහිරව ක්‍රියාත්මක වන මෘදුකාංගයක් (Standalone Application) නොවන බැවින් පෙළ භාවිතා කරන ඕනෑම අවස්ථාවක දී ප්‍රයෝජනයට ගත හැකි ය. එසේම මෙය විජේසේකර යතුරු මුහුණත සහ මෙම මෙවලම සඳහාම නිර්මාණය කෙරුණු යතුරු මුහුණතකින් (LTRLAndroKey) සමන්විත වෙයි. 

 

වාග් සම්පත්

සමකාලීන සිංහල වාග් සංහිතාව (වචන මිලියන දහයකින් සමන්විතයි.)

වචන මිලියන දහයක් වන මෙම UCSC සිංහල වාග් සංහිතාව සිංහල පුවත්පත් ලිපි එකතුවකින් සකස් කරන ලද්දකි. මෙහි පුවත්පත් කතුවැකි, විශේෂාංග ලිපි, විදෙස් පුවත් සහ ක්‍රීඩා පුවත් ඇතුළත් ලිපි ගොනු 2794ක් අඩංගු වන අතර එහි ඒකරූපී වචන 135,000ක් පමණ අන්තර්ගත වෙයි. 

ඉංග්‍රීසි - සිංහල සමාන්තර වාග් සංහිතාව

වචන ලක්ෂයක් පමණ ඇතුළත් මෙම සමාන්තර වාග් සංහිතාවෙහි ඉංග්‍රීසි – සිංහල සමාන්තර වාක්‍ය 4,300ක් පමණ ඇතුළත් වෙයි. වාග් සම්පතක් ලෙස මෙය පරිගණක ආධාරක පරිවර්තන කටයුතු සඳහා මෙන්ම අදාළ භාෂා දෙක සඳහා නිර්මාණය කෙරෙන යාන්ත්‍රික පරිවර්තන යෙදුම් සඳහා ද උපකාරී වෙයි.

සිංහල සංකේත වාග් සංහිතාව (වචන ලක්ෂ පහකින් සමන්විතයි.)

සිංහල සංකේත වාග් සංහිතාව භාෂාවේදීන් කිහිප දෙනෙකුගේ දායකත්වයෙන් UCSC සිංහල වාග් ගොනු සංකේතාවලිය (පළමු වෙළුම) අනුව සංකේනය කොට සැකසුණකි. කිනම් ගොනුවකට අයත් වන්නේ දැයි හඳුනා ගැනීමට අපහසු වචන ප්‍රශ්නාර්ථය (?) යොදා සලකුණු කොට තිබේ.

UCSC සිංහල වදන්දැල (වචන 1300ක් සඳහා)

UCSC සිංහල වදන්දැල (පළමු වෙළුම) වචනාර්ථ 1,075කින් සමන්විත වන අතර අදාළ අරුත් සඳහා සමානාර්ථ ගොනු සහ ඊට අදාළ වන ප්‍රින්ස්ටන් වදන්දැලෙහි හැඳුන්ම් අංකය ඇතුළත් වෙයි. 

UCSC සිංහල වාග් ගොනු සංකේතාවලිය

විරාම ලකුණු හැරුණු විට UCSC සිංහල වාග් ගොනු සංකේතාවලියෙහි (Part of Speech Tagset) වෙනස් වචන ගොනු 22ක් වෙයි. මෙහි දී විරාම ලකුණු සඳහා එක් ගොනු සංකේතයක් භාවිත නොවන අතර සෑම විරාම ලකුණක්ම එම ලකුණින්ම සලකුණු කෙරේ.  

සිංහල සංඥා නාමාවලිය

මෙහි සිංහල පුද්ගල නම්, රටවල් සහ දේශීය, විදේශීය නගර නම්, ශ්‍රී ලංකාවෙහි ගංගා සහ වැව්වල නම්, සිංහල කලාකරුවන්ගේ නම් ඇතුළත් වන අතර එය සංඥා නාම 20,800ක පමණ එකතුවකි.

NamedEntity Tagged Corpus

Sinhala Named Entity Tagged Corpus consists around 83K words that have been tagged for person names, location names and organization names as Named Entities.

සිංහල ව්‍යාකරණ වචනාවලිය

සිංහල භාෂාවේ එන සම්බන්ධක පද, ආදේශක පද, විශ්මයාර්ථ පද, නිපාත පද 425ක් පමණ මෙහි ඇතුළත් වෙයි. 

Sinhala_NE_Data (including person and place name entities)

ඉඟිය ඉංග්‍රීසි-සිංහල ශබ්දකෝෂ දත්ත ගොනුව

මෙය ඉඟිය ඉංග්‍රීසි-සිංහල ශබ්දකෝෂ ඈඳුම සඳහා භාවිත දත්ත ගොනුවයි. ඉංග්‍රීසි වචන 36,000ක් පමණ එහි සිංහල තේරුම සමඟ මෙහි අන්තර්ගත වෙයි.

සිංහල ඒකරූපී වචනාවලිය

UCSC සිංහල වාග් සංහිතාවෙන් උපුටා ගත් ඒකරූපී වචන (distinct words) ලක්ෂ හතරක් පමණ මෙහි අඩංගු වෙයි.

කථන සිංහල වාග් සංහිතාව

ගැහැණු හඬ කාණ්ඩය

එක් ගැහැණු හඬකින් ඇති වාගාලාප 3000ක් මෙහි ඇතුළත් වෙයි. සිංහල භාෂාවෙහි බහුලව යෙදෙන වචන පිළිබඳ සැලකිලිමත් ව එම වාගාලාප තෝරා ගැනුණු අතර සිංහල භාෂාව සඳහා කථන සංජානන පද්ධතියක් නිර්මාණය කිරීම සඳහා මෙම දත්ත යොදා ගැනිණි.

පිරිමි හඬ කාණ්ඩය

එක් පිරිමි හඬකින් පටගත කළ වාගාලාප 625ක් මෙම කොටසෙහි ඇතුළත් වෙයි. මෙය සිංහල පෙළ කථන මෘදුකාංගයක් නිර්මාණය කිරීම සඳහා සකස් කෙරුණු දත්ත සමූහයකි.

මිශ්‍ර කාණ්ඩය

ජංගම දුරකථන සඳහා සින්දු ඉල්ලීම් කිරීමේ යෙදුමක් නිර්මාණය කිරීම සඳහා සකස් කළ මෙම වාග් සංහිතාවෙහි වෙනස් හඬ 2000කින් පමණ පටිගත කළ වාගාලාප 74,000ක් ඇතුළත් වෙයි.

සිංහල පුවත් කාණ්ඩය

පටිගත කරන ලද සිංහල පුවත්වලින් සැකසෙන මෙම කාණ්ඩයෙහි පිරිමි සහ ගැහැණු පුවත් නිවේදකයින්ගේ හඬ ඇතුළත් වාගාලාප 8000ක් පමණ වෙයි. මෙය දැනට ක්‍රියාත්මක වන ව්‍යාපෘතියකි.