scuffed-code/icu4c/source/test/testdata/wordsegments.txt
2011-07-18 21:54:42 +00:00

48 lines
2.8 KiB
Plaintext
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Copyright (C) 2011-2011, International Business Machines Corporation
# and others. All Rights Reserved.
#
# file name: wordsegments.txt
# encoding: UTF-8
#
# created on: 2011may14
# created by: George Rhoten
# created by: Nathan Wells
#
# Word boundary test data for languages that contain no spaces.
# Boundaries are deliminated with the | character so that it's easier to debug.
#
# If you have test data with zero width spaces to deliminate the words, use the following command example.
# Be sure to copy the zero width space in the sed command.
# echo 'សូម​ចំណាយពេល​បន្តិច​ដើម្បី​អធិស្ឋាន​អរ​ព្រះគុណ​ដល់​ព្រះអង្គ' | sed 's//\|/g'
#
# Khmer
តើ|លោក|មក|ពី|ប្រទេស|ណា
សណ្ដូក|ក|បណ្ដែត|ខ្លួន
ពណ៌ស|ម្ដេច|ថា|ខ្មៅ
#ប្រយោគ|ពី|របៀប|រួបរួម|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល
ប្រយោគ|ពី|របៀប|ដែល|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល
#ប្រយោគ|ពី|របៀប|ជា|មួយ|និង|ភាព|ផ្សេងគ្នា|ដែល|អាច|ចូល
សូម|ចំណាយពេល|បន្តិច|ដើម្បី|អធិស្ឋាន|អរព្រះគុណ|ដល់|ព្រះអង្គ
ការ|ថោកទាប|បរិប្បូណ៌|ដោយ
ប្រើប្រាស់|ស្អាត|ទាំង|ចិត្ត|សិស្ស|នោះ
បើ|អ្នក|ប្រព្រឺត្ត|អំពើអាក្រក់|មុខ|ជា|មាន
ប្រដាប់|ប្រដា|រ|រៀនសូត្រ|បន្ទប់|រៀន
ដើរតួ|មនុស្សគ|ឥត|បញ្ចេញ|យោបល់|សោះ|ឡើយ
មិន|អាច|ឲ្យ|យើង|ធ្វើ|កសិកម្ម|បាន|ឡើយ
បន្ត|សេចក្ត|ទៅទៀត
ក្រុម|ប៉ូលិស|បណ្តាក់|គ្នា
គ្មាន|សុខ|សំរាន្ត|ដង|ណា
បាន|សុខភាព|បរិប្បូណ៌
ជា|មេចោរ|ខ្ញុំ|នឹង|ស្លាប់|ទៅវិញ|ជា|មេចោរ
ឯ|ការ|វាយ|ផ្ចាល|ដែល|នាំ
គេ|ដឹក|ទៅ|សំឡាប់
#អ្នក|ដែល|ជា|មន្ត្រី|ធំ|លើ|គាត់|ទេ
យក|ទៅ|សម្លាប់ចោល|ស្ងាត់
ត្រូវ|បាន|គេ|សម្លាប់
នៅក្នុង|ស្រុក|ខ្ល|ងហ្ស៊ុន
# Thai
กู| |กิน|กุ้ง| |ปิ้่|งอ|ยู่|ใน|ถ้ำ