Combined letters in Unicode - How to used with Python

 I have to utlised the combined letters of Sinhala for my study. This is not a problem of English, however, a language having vowel sounds by combining parts with a letter, the analysis of letters within the word ideally need to carry out with combing parts.


 

Output :

['ඵ', ';', '\u200c', ':', 'ෙ', 'ු', 'ඕ', 'c', 'ප', 'ථ', 'ඥ', 'x', '්', '2', '☔', 'උ', 'n', 'ම', '3', '}', '?', 'ඃ', 'ත', 'හ', '0', 'ො', 'z', 'ෲ', ',', 'ඔ', 'ඳ', 'i', 'ං', '▪', 'ි', '[', 'ඤ', 'ස', 'b', 'ූ', '_', '☁', 'ඟ', 'ඩ', 'ෑ', 'ේ', '1', 'අ', 'ආ', 'ට', 'ී', 'q', '•', 'd', 'ද', '–', 'ර', '8', 'ඒ', 'r', "'", 'ඌ', 'ඇ', ' ', 'p', 'ඞ', 'w', 'ෆ', '.', '\n', '5', 'ෞ', 'ෂ', 'ක', '6', 'a', 'ච', 'y', 'o', 'ෛ', '*', '=', 'j', 'ණ', '෴', 'ා', 'ඬ', 'ඉ', '\t', 'ඝ', 'ඈ', 'ඹ', 'ඨ', 'g', '︎', '@', '{', '|', 'ළ', '&', '#', '️', 'ඊ', 'f', ']', '®', 't', 'm', 'ෝ', 'ය', '!', '\u2028', '×', '\u200d', 'ෟ', 'l', 'ව', 'ශ', 'h', 'ඡ', 'බ', '9', '\u0e6c', '7', '♥', '4', 'ෘ', 'v', 'ැ', 'e', 'එ', '-', '/', 'න', 'ඍ', 'ල', 'භ', 'ඛ', 'ග', '$', 's', 'k', 'ජ', 'ධ', 'u']

Expected:
['දෑ', 'ස', 'ම', ' ', 'රි', 'ද්', 'ද', 'න', 'හ', 'ග', 'තා', 'ලෙ', 'ට', 'පා', 'ගා', 'ගෙ', 'ක', 'වු', 'හැ', 'බෑ', '\n', 'මේ', 'ය', 'ර', 'න්', 'ළ', 'ඳා', 'කි', 'ව්', 'වා', 'නා', 'ඇ', 'සි', 'පි', 'නො', 'හෙ', 'ටි', 'ල', 'ස්', 'රූ', 'ව', 'රු', 'ඉ', 'බේ', 'නැ', 'තු', 'නු', 'හි', 'දෙ', 'ඔ', 'කී', 'ණා', 'මා', 'ගැ', 'ම්', 'අ', 'ආ', 'යි', 'යෙ', 'ල්', 'පෙ', 'ති', 'ගේ', 'දෝ', 'බො', 'ළු', 'ප\u200d', 'යේ', 'නි', 'ලා', 'මා\u200d', 'ත', 'දු', 'ක්', 'දැ', 'ලේ', 'කු', 'සු', 'මෙ', 'ඳ', 'දේ', 'රැ', 'ඳි', 'පේ', 'රං', 'බෝ', 'වි', 'යා', 'දං', 'ප', 'ඩා', 'බු', 'රේ', 'නෙ', 'ගු', 'පා\u200d', 'ත්', 'සෙ', 'සැ', 'කැ', 'වූ', 'ඳු', 'ළි', 'මු', 'බ', 'ළෙ', 'මි', 'තී', '.', 'එ', 'මැ', 'ඩි', 'ණි', 'ලි', 'වේ', 'ඟ', 'බි', 'ඹු', 'ච', 'කා', 'ජ', 'පු', 'රා', 'ණ', 'ඬ', 'බා', '\u2028', 'ගි', 'දී', 'දා', 'හු', 'වී', 'සෝ', 'තැ', 'නේ', 'රෙ', 'ජී', 'ඳෙ', 'ශා', 'ඈ', 'ප්', 'හේ', 'ඟු', 'ප්\u200d', 'ද්\u200d', 'ජා', 'තේ', 'ළං', 'දි', 'අං', 'හැං', 'ගී', 'ඳී', 'ර්', 'හා', 'සේ', 'මී', '-', 'පැ', 'සං', 'සා', 'රෑ', 'කො', '\t', 'හී', 'දො', 'ළො', 'පො', 'යු', 'තෙ', 'වෙ', 'ටු', 'ඩ', 'පෑ', 'මො', 'ගො', 'ඩේ', 'තො', 'ගං', 'පුං', 'චි', 'ඒ', 'නෑ', 'ඳේ', 'ධ', 'ණේ', 'වැ', 'බැ', 'මං', 'ණු', 'ඟි', 'උ', 'දූ', 'ලු', 'ලී', 'රී', 'නී', 'ඩු', 'ලූ', 'වෝ', 'කෝ', 'දාං', 'චු', 'ටේ', 'හං', 'ලැ', 'ජ්', 'කෑ', 'ලො', 'ශ්\u200d', 'ජ්\u200d', 'පං', 'ල්\u200d', '=', 'හිං', 'හෝ', 'ටෙ', 'කෙ', 'ශ', 'සෙං', 'පෝ', 'කේ', 'ඕ', 'ඬි', 'සිං', 'බ්\u200d', 'භා', 'පූ', 'ළා', 'ඹ', 'ටා', 'ටී', 'හො', 'සී', 'බෙ', 'ලෝ', 'සො', 'යො', 'තෝ', 'නෝ', 'ඬා', 'ලං', 'ඹෙ', 'ඹේ', 'පී', 'ක්\u200c', 'යැ', 'නං', 'ගෝ', 'ජෝ', 'ඩූ', 'ඛා', 'ඟේ', 'නූ', 'ණ්', 'යෞ', 'ණෙ', 'සූ', 'ගූ', 'කූ', 'දු\u200d', 'ත\u200d', 'රෝ', 'ඹි', 'ච්', 'දෝං', 'භි', 'ඵ', 'නු\u200d', 'භ', 'ළැ', 'ධා', 'ශ්', ' \u200d', 'ථා', 'ත්\u200d', 'ශී', 'ධු', 'ලිං', 'ෂ්', 'ෂි', 'භු', 'ඝ', 'ළේ', 'බ\u200d', 'බී', 'දෛ', 'යෝ', 'ශෝ', 'ථ', 'වො', 'රො', 'ශේ', 'න්\u200c', 'ම්\u200c', 'ත්\u200c', 'චෙ', 'තූ', 'චා', 'ස්\u200c', 'ල්\u200c', 'ථු', 'ගෑ', 'ණූ', 'ළී', 'ලෑ', 'මෝ', 'ව්\u200c', 'ඳැ', 'ලේ\u200c', 'ඩෙ', 'ඟා', 'භො', 'ඛ', 'මූ', 'ඬෙ', 'සේ\u200c', 'යේ\u200c', 'චං', 'සෑ', 'ඬු', 'ළෑ', 'ඥා', 'ඬූ', ' \u200c', 'භූ', 'තෘ', 'චී', 'ක්\u200d', 'භී', 'ග්\u200d', 'ඟී', 'රී\u200c', 'ෂා', 'ඊ', ',', 'ඳො', 'ඵුං', 'මුං', 'බූ', 'ඳූ', 'ජි', 'නෞ', 'වෑ', '/', 'ටැ', 'ඞෝ', 'නෞ', 'පිං', 'ජෙ', 'හෑ', ':', 'ෂ', 'ජු', 'e', 'n', 'd', 'ඹී', 'වෙි', 'චෝ', 'ණී', 'දේ', 'ථි', 'හෘ', 'යී', 'මේ', 'ඟෙ', 'යූං', 'තේේ', 'හො', 'ට්', 'ටූ', 'යං', 'අැ', 'යාං', 'අා', 'a', 'r', 't', 'i', 's', 'j', 'h', 'b', 'ඹූ', 'වෛ', '*', 'ටෝ', 'y', 'q', 'u', 'm', 'l', 'චේ', '!', 'යූ', 'මෘ', 'භෘං', 'v', 'c', 'o', '▪︎', '?', 'k', 'w', 'g', 'ඬේ', 'මෑ', 'කෞ', 'බ්', "'", 'f', 'p', 'කෘ', 'ණැ', 'දේා', 'රේ', 'අෑ', 'සැං', 'ණො', 'ග්', 'ඩෝ', 'ෆ', 'ෆ්', 'ශි', 'ළේ', 'සෝ', 'ළුු', 'වේ', 'ඳේ', '♥', 'ඹා', 'හ්', 'බිං', 'ගෘං', 'තුං', 'ඤ්', 'ඤු', 'තං', 'ධි', 'සෞ', 'රේ්', 'ඤා', 'ෂූ', 'භං', 'ඩී', 'ඥ', '1', '9', '0', '3', 'නෘ', 'ධී', 'ධූ', 'ලාා', 'ණෝ', 'වං', 'රැු', 'ඳෑ', 'ෂං', 'ෂෙ', 'ළූ', 'පේ්', 'සාං', 'ශු', 'ඝේ', 'ධේ', 'තෑ', 'ශො', 'ඞ', '–', 'නො', 'ඩිං', 'ටෑ', 'රුං', 'හුං', 'යෑ', 'නේ', 'ඡා', '•', 'කිං', 'කෲ', 'ජේ', 'බං', 'ඩැ', 'යේ', 'කො', 'z', 'ම්ං', 'කං', 'තිං', 'එ්', 'ලේ', 'ඤ', 'වෑං', 'ඩ්', 'දෝ', 'බො', 'ඝෝ', 'රිං', 'ඉං', 'ගේ', 'දැං', 'ටො', '4', 'x', 'සෘං', '5', '6', 'සෘ', 'නැං', '8', '#', 'රො', 'සේ', 'හෝ', '\u0e6c', 'පෘ', 'ඕං', '_', 'ණේ', 'ධෙ', 'ඔා', 'ඡි', 'පිි', 'කිි', 'දෝ', 'විි', 'ෆි', 'ය්', ' ෙ', 'ඔි', 'ආාාාාාාාාාාා', 'මෙි', '&', ';', 'වෘ', '@', 'පො', 'ළෝ', 'ඟ්', 'ථැ', 'කුං', 'ශෘං', 'ධ්', 'කාං', 'ජො', 'ලෝ', 'තේ', 'ළො', 'කෝ', 'හේ', 'බෙි', 'හූ', 'ඨා', '[', ']', 'ගෞ', 'ඞූ', 'ඤෝ', 'ඞා', 'ඞු', 'ඞෙ', 'නාා', 'ළ්', 'බැං', 'ජෑ', 'ජූ', 'භේ', 'ෆෙ', 'ෆේ', 'ෆු', 'ඬං', 'ලෛ', 'බේ', 'සො', 'දො', 'ඹේ', 'යෝ', '×', '2', 'ඍං', ' ️', 'ඟේ', 'ඩො', 'ෆැ', 'ජං', 'ඛ්', 'ඌ', 'බෘං', 'ඬැ', 'හෞ', '{', '}', 'ඛී', 'කේ', 'ෂු', 'තෝං', 'පැං', 'හැෙ', 'ඤං', 'ඤාං', 'ැ', 'වාං', 'තාං', '®', 'දිං', 'තො', 'බෝ', 'දාෙ', 'ගො', 'චූ', 'නිං', 'ෂේ', 'ඛෙ', 'ඩං', 'ඔං', 'යො', 'ඔෙ', 'විෙ', 'හාෙ', 'රා්', 'හුෙ', 'බා්', 'ල්ෙ', 'ඒ්', 'ළිං', 'ෆො', 'චො', 'ශුං', 'ඳ්', 'ඝො', ' ්', '෴', 'ශූ', 'රූං', 'ට්ි', 'ලෙං', 'ණං', 'ටං', 'ගොං', 'ඡ', 'බෞ', 'න්ො', 'රැැ', 'ඇැ', 'ඝා', 'හීං', ' ිි', ' ා', ' ොු', ' ො', 'ේ', 'ස්ොං', 'ජ්ං', 'ඩ්ොු', 'ව්ෙ', 'බ්ංෙ', 'ි', 'එුොුො', 'ිොොු', 'ශාං', 'ඥෝ', 'ෂෝ', 'ඹ්', 'පේ', 'ෆූ', 'ජැ', 'ෂාා', 'රෙං', '☁', '☔', 'ජෝ', 'ලො', 'ඍ', 'ා', 'ණිි', '7', '|', 'හිි', 'දෙැ', 'තිි', 'දිි', 'දැැ', 'නඃ', 'ජිි', 'ගිි', 'පෙු', 'ඤො', 'ඨ', 'ඛො', 'රෛ', ' ු', 'ටිං', 'රෝ', 'ළිි', 'සිි', 'තෙං', '$', 'ෙ', 'ඡී', 'ඡේ'] {'දෑ': 0, 'ස': 1, 'ම': 2, ' ': 3, 'රි': 4, 'ද්': 5, 'ද': 6, 'න': 7, 'හ': 8, 'ග': 9, 'තා': 10, 'ලෙ': 11, 'ට': 12, 'පා': 13, 'ගා': 14, 'ගෙ': 15, 'ක': 16, 'වු': 17, 'හැ': 18, 'බෑ': 19, '\n': 20, 'මේ': 21, 'ය': 22, 'ර': 23, 'න්': 24, 'ළ': 25, 'ඳා': 26, 'කි': 27, 'ව්': 28, 'වා': 29, 'නා': 30, 'ඇ': 31, 'සි': 32, 'පි': 33, 'නො': 34, 'හෙ': 35, 'ටි': 36, 'ල': 37, 'ස්': 38, 'රූ': 39, 'ව': 40, 'රු': 41, 'ඉ': 42, 'බේ': 43, 'නැ': 44, 'තු': 45, 'නු': 46, 'හි': 47, 'දෙ': 48, 'ඔ': 49, 'කී': 50, 'ණා': 51, 'මා': 52, 'ගැ': 53, 'ම්': 54, 'අ': 55, 'ආ': 56, 'යි': 57, 'යෙ': 58, 'ල්': 59, 'පෙ': 60, 'ති': 61, 'ගේ': 62, 'දෝ': 63, 'බො': 64, 'ළු': 65, 'ප\u200d': 66, 'යේ': 67, 'නි': 68, 'ලා': 69, 'මා\u200d': 70, 'ත': 71, 'දු': 72, 'ක්': 73, 'දැ': 74, 'ලේ': 75, 'කු': 76, 'සු': 77, 'මෙ': 78, 'ඳ': 79, 'දේ': 80, 'රැ': 81, 'ඳි': 82, 'පේ': 83, 'රං': 84, 'බෝ': 85, 'වි': 86, 'යා': 87, 'දං': 88, 'ප': 89, 'ඩා': 90, 'බු': 91, 'රේ': 92, 'නෙ': 93, 'ගු': 94, 'පා\u200d': 95, 'ත්': 96, 'සෙ': 97, 'සැ': 98, 'කැ': 99, 'වූ': 100, 'ඳු': 101, 'ළි': 102, 'මු': 103, 'බ': 104, 'ළෙ': 105, 'මි': 106, 'තී': 107, '.': 108, 'එ': 109, 'මැ': 110, 'ඩි': 111, 'ණි': 112, 'ලි': 113, 'වේ': 114, 'ඟ': 115, 'බි': 116, 'ඹු': 117, 'ච': 118, 'කා': 119, 'ජ': 120, 'පු': 121, 'රා': 122, 'ණ': 123, 'ඬ': 124, 'බා': 125, '\u2028': 126, 'ගි': 127, 'දී': 128, 'දා': 129, 'හු': 130, 'වී': 131, 'සෝ': 132, 'තැ': 133, 'නේ': 134, 'රෙ': 135, 'ජී': 136, 'ඳෙ': 137, 'ශා': 138, 'ඈ': 139, 'ප්': 140, 'හේ': 141, 'ඟු': 142, 'ප්\u200d': 143, 'ද්\u200d': 144, 'ජා': 145, 'තේ': 146, 'ළං': 147, 'දි': 148, 'අං': 149, 'හැං': 150, 'ගී': 151, 'ඳී': 152, 'ර්': 153, 'හා': 154, 'සේ': 155, 'මී': 156, '-': 157, 'පැ': 158, 'සං': 159, 'සා': 160, 'රෑ': 161, 'කො': 162, '\t': 163, 'හී': 164, 'දො': 165, 'ළො': 166, 'පො': 167, 'යු': 168, 'තෙ': 169, 'වෙ': 170, 'ටු': 171, 'ඩ': 172, 'පෑ': 173, 'මො': 174, 'ගො': 175, 'ඩේ': 176, 'තො': 177, 'ගං': 178, 'පුං': 179, 'චි': 180, 'ඒ': 181, 'නෑ': 182, 'ඳේ': 183, 'ධ': 184, 'ණේ': 185, 'වැ': 186, 'බැ': 187, 'මං': 188, 'ණු': 189, 'ඟි': 190, 'උ': 191, 'දූ': 192, 'ලු': 193, 'ලී': 194, 'රී': 195, 'නී': 196, 'ඩු': 197, 'ලූ': 198, 'වෝ': 199, 'කෝ': 200, 'දාං': 201, 'චු': 202, 'ටේ': 203, 'හං': 204, 'ලැ': 205, 'ජ්': 206, 'කෑ': 207, 'ලො': 208, 'ශ්\u200d': 209, 'ජ්\u200d': 210, 'පං': 211, 'ල්\u200d': 212, '=': 213, 'හිං': 214, 'හෝ': 215, 'ටෙ': 216, 'කෙ': 217, 'ශ': 218, 'සෙං': 219, 'පෝ': 220, 'කේ': 221, 'ඕ': 222, 'ඬි': 223, 'සිං': 224, 'බ්\u200d': 225, 'භා': 226, 'පූ': 227, 'ළා': 228, 'ඹ': 229, 'ටා': 230, 'ටී': 231, 'හො': 232, 'සී': 233, 'බෙ': 234, 'ලෝ': 235, 'සො': 236, 'යො': 237, 'තෝ': 238, 'නෝ': 239, 'ඬා': 240, 'ලං': 241, 'ඹෙ': 242, 'ඹේ': 243, 'පී': 244, 'ක්\u200c': 245, 'යැ': 246, 'නං': 247, 'ගෝ': 248, 'ජෝ': 249, 'ඩූ': 250, 'ඛා': 251, 'ඟේ': 252, 'නූ': 253, 'ණ්': 254, 'යෞ': 255, 'ණෙ': 256, 'සූ': 257, 'ගූ': 258, 'කූ': 259, 'දු\u200d': 260, 'ත\u200d': 261, 'රෝ': 262, 'ඹි': 263, 'ච්': 264, 'දෝං': 265, 'භි': 266, 'ඵ': 267, 'නු\u200d': 268, 'භ': 269, 'ළැ': 270, 'ධා': 271, 'ශ්': 272, ' \u200d': 273, 'ථා': 274, 'ත්\u200d': 275, 'ශී': 276, 'ධු': 277, 'ලිං': 278, 'ෂ්': 279, 'ෂි': 280, 'භු': 281, 'ඝ': 282, 'ළේ': 283, 'බ\u200d': 284, 'බී': 285, 'දෛ': 286, 'යෝ': 287, 'ශෝ': 288, 'ථ': 289, 'වො': 290, 'රො': 291, 'ශේ': 292, 'න්\u200c': 293, 'ම්\u200c': 294, 'ත්\u200c': 295, 'චෙ': 296, 'තූ': 297, 'චා': 298, 'ස්\u200c': 299, 'ල්\u200c': 300, 'ථු': 301, 'ගෑ': 302, 'ණූ': 303, 'ළී': 304, 'ලෑ': 305, 'මෝ': 306, 'ව්\u200c': 307, 'ඳැ': 308, 'ලේ\u200c': 309, 'ඩෙ': 310, 'ඟා': 311, 'භො': 312, 'ඛ': 313, 'මූ': 314, 'ඬෙ': 315, 'සේ\u200c': 316, 'යේ\u200c': 317, 'චං': 318, 'සෑ': 319, 'ඬු': 320, 'ළෑ': 321, 'ඥා': 322, 'ඬූ': 323, ' \u200c': 324, 'භූ': 325, 'තෘ': 326, 'චී': 327, 'ක්\u200d': 328, 'භී': 329, 'ග්\u200d': 330, 'ඟී': 331, 'රී\u200c': 332, 'ෂා': 333, 'ඊ': 334, ',': 335, 'ඳො': 336, 'ඵුං': 337, 'මුං': 338, 'බූ': 339, 'ඳූ': 340, 'ජි': 341, 'නෞ': 342, 'වෑ': 343, '/': 344, 'ටැ': 345, 'ඞෝ': 346, 'නෞ': 347, 'පිං': 348, 'ජෙ': 349, 'හෑ': 350, ':': 351, 'ෂ': 352, 'ජු': 353, 'e': 354, 'n': 355, 'd': 356, 'ඹී': 357, 'වෙි': 358, 'චෝ': 359, 'ණී': 360, 'දේ': 361, 'ථි': 362, 'හෘ': 363, 'යී': 364, 'මේ': 365, 'ඟෙ': 366, 'යූං': 367, 'තේේ': 368, 'හො': 369, 'ට්': 370, 'ටූ': 371, 'යං': 372, 'අැ': 373, 'යාං': 374, 'අා': 375, 'a': 376, 'r': 377, 't': 378, 'i': 379, 's': 380, 'j': 381, 'h': 382, 'b': 383, 'ඹූ': 384, 'වෛ': 385, '*': 386, 'ටෝ': 387, 'y': 388, 'q': 389, 'u': 390, 'm': 391, 'l': 392, 'චේ': 393, '!': 394, 'යූ': 395, 'මෘ': 396, 'භෘං': 397, 'v': 398, 'c': 399, 'o': 400, '▪︎': 401, '?': 402, 'k': 403, 'w': 404, 'g': 405, 'ඬේ': 406, 'මෑ': 407, 'කෞ': 408, 'බ්': 409, "'": 410, 'f': 411, 'p': 412, 'කෘ': 413, 'ණැ': 414, 'දේා': 415, 'රේ': 416, 'අෑ': 417, 'සැං': 418, 'ණො': 419, 'ග්': 420, 'ඩෝ': 421, 'ෆ': 422, 'ෆ්': 423, 'ශි': 424, 'ළේ': 425, 'සෝ': 426, 'ළුු': 427, 'වේ': 428, 'ඳේ': 429, '♥': 430, 'ඹා': 431, 'හ්': 432, 'බිං': 433, 'ගෘං': 434, 'තුං': 435, 'ඤ්': 436, 'ඤු': 437, 'තං': 438, 'ධි': 439, 'සෞ': 440, 'රේ්': 441, 'ඤා': 442, 'ෂූ': 443, 'භං': 444, 'ඩී': 445, 'ඥ': 446, '1': 447, '9': 448, '0': 449, '3': 450, 'නෘ': 451, 'ධී': 452, 'ධූ': 453, 'ලාා': 454, 'ණෝ': 455, 'වං': 456, 'රැු': 457, 'ඳෑ': 458, 'ෂං': 459, 'ෂෙ': 460, 'ළූ': 461, 'පේ්': 462, 'සාං': 463, 'ශු': 464, 'ඝේ': 465, 'ධේ': 466, 'තෑ': 467, 'ශො': 468, 'ඞ': 469, '–': 470, 'නො': 471, 'ඩිං': 472, 'ටෑ': 473, 'රුං': 474, 'හුං': 475, 'යෑ': 476, 'නේ': 477, 'ඡා': 478, '•': 479, 'කිං': 480, 'කෲ': 481, 'ජේ': 482, 'බං': 483, 'ඩැ': 484, 'යේ': 485, 'කො': 486, 'z': 487, 'ම්ං': 488, 'කං': 489, 'තිං': 490, 'එ්': 491, 'ලේ': 492, 'ඤ': 493, 'වෑං': 494, 'ඩ්': 495, 'දෝ': 496, 'බො': 497, 'ඝෝ': 498, 'රිං': 499, 'ඉං': 500, 'ගේ': 501, 'දැං': 502, 'ටො': 503, '4': 504, 'x': 505, 'සෘං': 506, '5': 507, '6': 508, 'සෘ': 509, 'නැං': 510, '8': 511, '#': 512, 'රො': 513, 'සේ': 514, 'හෝ': 515, '\u0e6c': 516, 'පෘ': 517, 'ඕං': 518, '_': 519, 'ණේ': 520, 'ධෙ': 521, 'ඔා': 522, 'ඡි': 523, 'පිි': 524, 'කිි': 525, 'දෝ': 526, 'විි': 527, 'ෆි': 528, 'ය්': 529, ' ෙ': 530, 'ඔි': 531, 'ආාාාාාාාාාාා': 532, 'මෙි': 533, '&': 534, ';': 535, 'වෘ': 536, '@': 537, 'පො': 538, 'ළෝ': 539, 'ඟ්': 540, 'ථැ': 541, 'කුං': 542, 'ශෘං': 543, 'ධ්': 544, 'කාං': 545, 'ජො': 546, 'ලෝ': 547, 'තේ': 548, 'ළො': 549, 'කෝ': 550, 'හේ': 551, 'බෙි': 552, 'හූ': 553, 'ඨා': 554, '[': 555, ']': 556, 'ගෞ': 557, 'ඞූ': 558, 'ඤෝ': 559, 'ඞා': 560, 'ඞු': 561, 'ඞෙ': 562, 'නාා': 563, 'ළ්': 564, 'බැං': 565, 'ජෑ': 566, 'ජූ': 567, 'භේ': 568, 'ෆෙ': 569, 'ෆේ': 570, 'ෆු': 571, 'ඬං': 572, 'ලෛ': 573, 'බේ': 574, 'සො': 575, 'දො': 576, 'ඹේ': 577, 'යෝ': 578, '×': 579, '2': 580, 'ඍං': 581, ' ️': 582, 'ඟේ': 583, 'ඩො': 584, 'ෆැ': 585, 'ජං': 586, 'ඛ්': 587, 'ඌ': 588, 'බෘං': 589, 'ඬැ': 590, 'හෞ': 591, '{': 592, '}': 593, 'ඛී': 594, 'කේ': 595, 'ෂු': 596, 'තෝං': 597, 'පැං': 598, 'හැෙ': 599, 'ඤං': 600, 'ඤාං': 601, 'ැ': 602, 'වාං': 603, 'තාං': 604, '®': 605, 'දිං': 606, 'තො': 607, 'බෝ': 608, 'දාෙ': 609, 'ගො': 610, 'චූ': 611, 'නිං': 612, 'ෂේ': 613, 'ඛෙ': 614, 'ඩං': 615, 'ඔං': 616, 'යො': 617, 'ඔෙ': 618, 'විෙ': 619, 'හාෙ': 620, 'රා්': 621, 'හුෙ': 622, 'බා්': 623, 'ල්ෙ': 624, 'ඒ්': 625, 'ළිං': 626, 'ෆො': 627, 'චො': 628, 'ශුං': 629, 'ඳ්': 630, 'ඝො': 631, ' ්': 632, '෴': 633, 'ශූ': 634, 'රූං': 635, 'ට්ි': 636, 'ලෙං': 637, 'ණං': 638, 'ටං': 639, 'ගොං': 640, 'ඡ': 641, 'බෞ': 642, 'න්ො': 643, 'රැැ': 644, 'ඇැ': 645, 'ඝා': 646, 'හීං': 647, ' ිි': 648, ' ා': 649, ' ොු': 650, ' ො': 651, 'ේ': 652, 'ස්ොං': 653, 'ජ්ං': 654, 'ඩ්ොු': 655, 'ව්ෙ': 656, 'බ්ංෙ': 657, 'ි': 658, 'එුොුො': 659, 'ිොොු': 660, 'ශාං': 661, 'ඥෝ': 662, 'ෂෝ': 663, 'ඹ්': 664, 'පේ': 665, 'ෆූ': 666, 'ජැ': 667, 'ෂාා': 668, 'රෙං': 669, '☁': 670, '☔': 671, 'ජෝ': 672, 'ලො': 673, 'ඍ': 674, 'ා': 675, 'ණිි': 676, '7': 677, '|': 678, 'හිි': 679, 'දෙැ': 680, 'තිි': 681, 'දිි': 682, 'දැැ': 683, 'නඃ': 684, 'ජිි': 685, 'ගිි': 686, 'පෙු': 687, 'ඤො': 688, 'ඨ': 689, 'ඛො': 690, 'රෛ': 691, ' ු': 692, 'ටිං': 693, 'රෝ': 694, 'ළිි': 695, 'සිි': 696, 'තෙං': 697, '$': 698, 'ෙ': 699, 'ඡී': 700, 'ඡේ': 701}

In the context of Sinhala, each consenent letter has a clearly defined sound after combining a part that represents the vowel sound.


The current approach can use the following with provided the actual output for language like English as given below.

# Lowercase all text

text = corpus.lower()

chars = list(set(text))

print(chars)

char_indices = dict((c, i) for i, c in enumerate(chars))

print(char_indices)

indices_char = dict((i, c) for i, c in enumerate(chars))

print(indices_char)

vocab_size = len(chars)

print('Vocabulary size: {}'.format(vocab_size))


However to produce the expected output the following post helps ..Thanks 

https://stackoverflow.com/questions/23873771/how-to-handle-combining-diacritical-marks-with-unicodeutils

https://stackoverflow.com/questions/6805311/combining-devanagari-characters




Comments

Popular posts from this blog

ENOENT: no such file or directory, rename : node_modules/async

react-quill Integrate quill-image-resize-module