diff --git a/ChangeLog b/ChangeLog index 9c0a579a4a..d67f077874 100644 --- a/ChangeLog +++ b/ChangeLog @@ -1,3 +1,32 @@ +2000-09-23 Bruno Haible + + * iconvdata/gbk.c (USE_PRIVATE_AREA): Define to 0. + (__gbk_to_ucs): Conditionalize private area mappings. + (__gbk_from_ucs4_tab9): Likewise. + (BODY for TO_LOOP): Likewise. + * iconvdata/testdata/GBK: Don't use characters not yet in Unicode. + * iconvdata/testdata/GBK..UTF-8: Likewise. + * iconvdata/tst-tables.sh: Enable GBK test. + +2000-09-23 Bruno Haible + + * iconvdata/gbk.c (__gbk_to_ucs): Swap U+2014 and U+2015. + (__gbk_from_ucs4_tab4): Swap entries for U+2014 and U+2015. + (BODY for FROM_LOOP): Reject input > 0xFEA0, avoids out-of-bounds + array access. + * iconvdata/gbgbk.c (BODY for FROM_LOOP): Map 0xA844 to 0xA1AA. + * iconvdata/testdata/GBK..UTF8: Swap U+2014 and U+2015. + +2000-09-23 Bruno Haible + + * iconvdata/johab.c (final_to_ucs): Fix typos. + (jamo_from_ucs_table): Likewise. + (BODY for FROM_LOOP): Map 0x5c to U+20A9. Reject ranges + 0xD9E6..0xD9FE and 0xDEF2..0xDEFE. + (BODY for TO_LOOP): Map U+20A9 to 0x5c. Don't produce values in + the range 0xD9E6..0xD9FE. + * iconvdata/tst-tables.sh: Enable JOHAB testing. + 2000-09-25 Ulrich Drepper * iconv/gconv_conf.c (__gconv_get_path): Fix problem with relative diff --git a/iconvdata/gbk.c b/iconvdata/gbk.c index f9a53ff2df..b07f39294a 100644 --- a/iconvdata/gbk.c +++ b/iconvdata/gbk.c @@ -26,6 +26,12 @@ #include #include +/* Unicode 3.0.1 does not contain all the characters in GBK. Define + USE_PRIVATE_AREA to 1 in order to use mappings from/to the Unicode + Private Use area. Until we see other systems using the same mappings, + it is disabled. */ +#define USE_PRIVATE_AREA 0 + /* The conversion table to UCS4 has almost no holes. It can be generated with: perl tab.pl < gbk.txt @@ -1739,7 +1745,13 @@ static const uint16_t __gbk_to_ucs[] = [0x1db0] = 0x00f2, [0x1db1] = 0x016b, [0x1db2] = 0x00fa, [0x1db3] = 0x01d4, [0x1db4] = 0x00f9, [0x1db5] = 0x01d6, [0x1db6] = 0x01d8, [0x1db7] = 0x01da, [0x1db8] = 0x01dc, [0x1db9] = 0x00fc, [0x1dba] = 0x00ea, [0x1dbb] = 0x0251, - [0x1dbc] = 0xe7c7, [0x1dbd] = 0x0144, [0x1dbe] = 0x0148, [0x1dbf] = 0xe7c8, +#if USE_PRIVATE_AREA + [0x1dbc] = 0xe7c7, +#endif + [0x1dbd] = 0x0144, [0x1dbe] = 0x0148, +#if USE_PRIVATE_AREA + [0x1dbf] = 0xe7c8, +#endif [0x1dc0] = 0x0261, [0x1dc5] = 0x3105, [0x1dc6] = 0x3106, [0x1dc7] = 0x3107, [0x1dc8] = 0x3108, [0x1dc9] = 0x3109, [0x1dca] = 0x310a, [0x1dcb] = 0x310b, [0x1dcc] = 0x310c, [0x1dcd] = 0x310d, [0x1dce] = 0x310e, [0x1dcf] = 0x310f, @@ -1766,10 +1778,14 @@ static const uint16_t __gbk_to_ucs[] = [0x1e3b] = 0xfe5e, [0x1e3c] = 0xfe5f, [0x1e3d] = 0xfe60, [0x1e3e] = 0xfe61, [0x1e40] = 0xfe62, [0x1e41] = 0xfe63, [0x1e42] = 0xfe64, [0x1e43] = 0xfe65, [0x1e44] = 0xfe66, [0x1e45] = 0xfe68, [0x1e46] = 0xfe69, [0x1e47] = 0xfe6a, - [0x1e48] = 0xfe6b, [0x1e49] = 0xe7e7, [0x1e4a] = 0xe7e8, [0x1e4b] = 0xe7e9, + [0x1e48] = 0xfe6b, +#if USE_PRIVATE_AREA + [0x1e49] = 0xe7e7, [0x1e4a] = 0xe7e8, [0x1e4b] = 0xe7e9, [0x1e4c] = 0xe7ea, [0x1e4d] = 0xe7eb, [0x1e4e] = 0xe7ec, [0x1e4f] = 0xe7ed, [0x1e50] = 0xe7ee, [0x1e51] = 0xe7ef, [0x1e52] = 0xe7f0, [0x1e53] = 0xe7f1, - [0x1e54] = 0xe7f2, [0x1e55] = 0xe7f3, [0x1e56] = 0x3007, [0x1e64] = 0x2500, + [0x1e54] = 0xe7f2, [0x1e55] = 0xe7f3, +#endif + [0x1e56] = 0x3007, [0x1e64] = 0x2500, [0x1e65] = 0x2501, [0x1e66] = 0x2502, [0x1e67] = 0x2503, [0x1e68] = 0x2504, [0x1e69] = 0x2505, [0x1e6a] = 0x2506, [0x1e6b] = 0x2507, [0x1e6c] = 0x2508, [0x1e6d] = 0x2509, [0x1e6e] = 0x250a, [0x1e6f] = 0x250b, [0x1e70] = 0x250c, @@ -5499,7 +5515,9 @@ static const uint16_t __gbk_to_ucs[] = [0x5dc2] = 0xfa0e, [0x5dc3] = 0xfa0f, [0x5dc4] = 0xfa11, [0x5dc5] = 0xfa13, [0x5dc6] = 0xfa14, [0x5dc7] = 0xfa18, [0x5dc8] = 0xfa1f, [0x5dc9] = 0xfa20, [0x5dca] = 0xfa21, [0x5dcb] = 0xfa23, [0x5dcc] = 0xfa24, [0x5dcd] = 0xfa27, - [0x5dce] = 0xfa28, [0x5dcf] = 0xfa29, [0x5dd0] = 0xe815, [0x5dd1] = 0xe816, + [0x5dce] = 0xfa28, [0x5dcf] = 0xfa29, +#if USE_PRIVATE_AREA + [0x5dd0] = 0xe815, [0x5dd1] = 0xe816, [0x5dd2] = 0xe817, [0x5dd3] = 0xe818, [0x5dd4] = 0xe819, [0x5dd5] = 0xe81a, [0x5dd6] = 0xe81b, [0x5dd7] = 0xe81c, [0x5dd8] = 0xe81d, [0x5dd9] = 0xe81e, [0x5dda] = 0xe81f, [0x5ddb] = 0xe820, [0x5ddc] = 0xe821, [0x5ddd] = 0xe822, @@ -5520,6 +5538,9 @@ static const uint16_t __gbk_to_ucs[] = [0x5e17] = 0xe85b, [0x5e18] = 0xe85c, [0x5e19] = 0xe85d, [0x5e1a] = 0xe85e, [0x5e1b] = 0xe85f, [0x5e1c] = 0xe860, [0x5e1d] = 0xe861, [0x5e1e] = 0xe862, [0x5e1f] = 0xe863, [0x5e20] = 0xe864, +#else + [0x5e20] = 0x0000, +#endif }; /* The table can be created using @@ -12936,6 +12957,7 @@ static const char __gbk_from_ucs4_tab8[][2] = */ static const char __gbk_from_ucs4_tab9[][2] = { +#if USE_PRIVATE_AREA [0x0000] = "\xa8\xbc", [0x0001] = "\xa8\xbf", [0x0020] = "\xa9\x89", [0x0021] = "\xa9\x8a", [0x0022] = "\xa9\x8b", [0x0023] = "\xa9\x8c", [0x0024] = "\xa9\x8d", [0x0025] = "\xa9\x8e", [0x0026] = "\xa9\x8f", @@ -12968,6 +12990,7 @@ static const char __gbk_from_ucs4_tab9[][2] = [0x0096] = "\xfe\x99", [0x0097] = "\xfe\x9a", [0x0098] = "\xfe\x9b", [0x0099] = "\xfe\x9c", [0x009a] = "\xfe\x9d", [0x009b] = "\xfe\x9e", [0x009c] = "\xfe\x9f", [0x009d] = "\xfe\xa0", +#endif }; /* The table can be created using @@ -13418,7 +13441,7 @@ static const char __gbk_from_ucs4_tab12[][2] = cp = __gbk_from_ucs4_tab8[ch - 0x4e00]; \ break; \ case 0xe7c7 ... 0xe864: \ - cp = __gbk_from_ucs4_tab9[ch - 0xe7c7]; \ + cp = USE_PRIVATE_AREA ? __gbk_from_ucs4_tab9[ch - 0xe7c7] : "\0\0"; \ break; \ case 0xf92c: \ cp = "\xfd\x9c"; \ diff --git a/iconvdata/testdata/GBK b/iconvdata/testdata/GBK index 31f35414c8..615c47c376 100644 --- a/iconvdata/testdata/GBK +++ b/iconvdata/testdata/GBK @@ -438,7 +438,7 @@ ¨€ ¨ ¨‚ ¨ƒ ¨„ ¨… ¨† ¨‡ ¨ˆ ¨‰ ¨Š ¨‹ ¨Œ ¨ ¨Ž ¨ ¨ ¨‘ ¨’ ¨“ ¨” ¨• ¨¡ ¨¢ ¨£ ¨¤ ¨¥ ¨¦ ¨§ ¨¨ ¨© ¨ª ¨« ¨¬ ¨­ ¨® ¨¯ - ¨° ¨± ¨² ¨³ ¨´ ¨µ ¨¶ ¨· ¨¸ ¨¹ ¨º ¨» ¨¼ ¨½ ¨¾ ¨¿ + ¨° ¨± ¨² ¨³ ¨´ ¨µ ¨¶ ¨· ¨¸ ¨¹ ¨º ¨» A8BC ¨½ ¨¾ A8BF ¨À ¨Å ¨Æ ¨Ç ¨È ¨É ¨Ê ¨Ë ¨Ì ¨Í ¨Î ¨Ï ¨Ð ¨Ñ ¨Ò ¨Ó ¨Ô ¨Õ ¨Ö ¨× ¨Ø ¨Ù ¨Ú ¨Û ¨Ü ¨Ý ¨Þ ¨ß ¨à ¨á ¨â ¨ã ¨ä ¨å ¨æ ¨ç ¨è ¨é @@ -446,8 +446,8 @@ ©P ©Q ©R ©S ©T ©U ©V ©W ©Y ©Z ©\ ©` ©a ©b ©c ©d ©e ©f ©g ©h ©i ©j ©k ©l ©m ©n ©o ©p ©q ©r ©s ©t ©u ©v ©w ©x ©y ©z ©{ ©| ©} ©~ - ©€ © ©‚ ©ƒ ©„ ©… ©† ©‡ ©ˆ ©‰ ©Š ©‹ ©Œ © ©Ž © - © ©‘ ©’ ©“ ©” ©• ©– + ©€ © ©‚ ©ƒ ©„ ©… ©† ©‡ ©ˆ A989 A98A A98B A98C A98D A98E A98F + A990 A991 A992 A993 A994 A995 ©– ©¤ ©¥ ©¦ ©§ ©¨ ©© ©ª ©« ©¬ ©­ ©® ©¯ ©° ©± ©² ©³ ©´ ©µ ©¶ ©· ©¸ ©¹ ©º ©» ©¼ ©½ ©¾ ©¿ ©À ©Á ©Â ©Ã ©Ä ©Å ©Æ ©Ç ©È ©É ©Ê ©Ë ©Ì ©Í ©Î ©Ï @@ -1402,9 +1402,9 @@ ý ý‘ ý’ ý“ ý” ý• ý– ý— ý˜ ý™ ýš ý› ýœ ý ýž ýŸ ý  þ@ þA þB þC þD þE þF þG þH þI þJ þK þL þM þN þO - þP þQ þR þS þT þU þV þW þX þY þZ þ[ þ\ þ] þ^ þ_ - þ` þa þb þc þd þe þf þg þh þi þj þk þl þm þn þo - þp þq þr þs þt þu þv þw þx þy þz þ{ þ| þ} þ~ - þ€ þ þ‚ þƒ þ„ þ… þ† þ‡ þˆ þ‰ þŠ þ‹ þŒ þ þŽ þ - þ þ‘ þ’ þ“ þ” þ• þ– þ— þ˜ þ™ þš þ› þœ þ þž þŸ - þ  + FE50 FE51 FE52 FE53 FE54 FE55 FE56 FE57 FE58 FE59 FE5A FE5B FE5C FE5D FE5E FE5F + FE60 FE61 FE62 FE63 FE64 FE65 FE66 FE67 FE68 FE69 FE6A FE6B FE6C FE6D FE6E FE6F + FE70 FE71 FE72 FE73 FE74 FE75 FE76 FE77 FE78 FE79 FE7A FE7B FE7C FE7D FE7E + FE80 FE81 FE82 FE83 FE84 FE85 FE86 FE87 FE88 FE89 FE8A FE8B FE8C FE8D FE8E FE8F + FE90 FE91 FE92 FE93 FE94 FE95 FE96 FE97 FE98 FE99 FE9A FE9B FE9C FE9D FE9E FE9F + FEA0 diff --git a/iconvdata/testdata/GBK..UTF8 b/iconvdata/testdata/GBK..UTF8 index cadf7239a6..6d8ce8c9a6 100644 --- a/iconvdata/testdata/GBK..UTF8 +++ b/iconvdata/testdata/GBK..UTF8 @@ -438,7 +438,7 @@ â–ˆ â–‰ â–Š â–‹ â–Œ â– â–Ž â– â–“ â–” â–• â–¼ â–½ â—¢ â—£ â—¤ â—¥ ☉ ⊕ 〒 〠〞 Ä Ã¡ ÇŽ à Ä“ é Ä› è Ä« í Ç Ã¬ Šó Ç’ - ò Å« ú Ç” ù Ç– ǘ Çš Çœ ü ê É‘  Å„ ň  + ò Å« ú Ç” ù Ç– ǘ Çš Çœ ü ê É‘ A8BC Å„ ň A8BF É¡ ã„… ㄆ ㄇ ㄈ ㄉ ã„Š ã„‹ ã„Œ ã„ ã„Ž ã„ ã„ ã„‘ ã„’ ã„“ ã„” ã„• ã„– ã„— ㄘ ã„™ ã„š ã„› ã„œ ã„ ã„ž ã„Ÿ ã„  ã„¡ ã„¢ ã„£ ㄤ ã„¥ ㄦ ㄧ ㄨ ã„© @@ -446,8 +446,8 @@ ㄠ㎠㑠㒠㕠︰ ï¿¢ ¦ â„¡ ㈱ †ー ã‚› ã‚œ ヽ ヾ 〆 ã‚ ã‚ž ﹉ ﹊ ﹋ ﹌ ï¹ ï¹Ž ï¹ ï¹ ï¹‘ ï¹’ ï¹” ﹕ ï¹– ï¹— ï¹™ ﹚ ï¹› ﹜ ï¹ ï¹ž ﹟ ï¹  ﹡ - ï¹¢ ï¹£ ﹤ ï¹¥ ﹦ ﹨ ﹩ ﹪ ﹫        -       〇 + ï¹¢ ï¹£ ﹤ ï¹¥ ﹦ ﹨ ﹩ ﹪ ﹫ A989 A98A A98B A98C A98D A98E A98F + A990 A991 A992 A993 A994 A995 〇 ─ ┠│ ┃ ┄ â”… ┆ ┇ ┈ ┉ ┊ ┋ ┌ ┠┎ ┠┠┑ â”’ ┓ â”” ┕ â”– â”— ┘ â”™ ┚ â”› ├ ┠┞ ┟ â”  ┡ ┢ ┣ ┤ ┥ ┦ ┧ ┨ ┩ ┪ ┫ @@ -1402,9 +1402,9 @@ 龕 é¾– é¾— 龘 龜 é¾ é¾ž 龡 é¾¢ é¾£ 龤 é¾¥ 郎 凉 秊 裏 隣 兀 ï¨ ï¨Ž ï¨ ï¨‘ 﨓 﨔 礼 﨟 蘒 﨡 﨣 﨤 﨧 﨨 﨩 - î • î – î — î ˜ î ™ î š î › î œ î  î ž î Ÿ î   î ¡ î ¢ î £ î ¤ - î ¥ î ¦ î § î ¨ î © î ª î « î ¬ î ­ î ® î ¯ î ° î ± î ² î ³ î ´ - î µ î ¶ î · î ¸ î ¹ î º î » î ¼ î ½ î ¾ î ¿ î¡€ î¡ î¡‚  - î¡„ î¡…     î¡Š î¡‹ î¡Œ î¡ î¡Ž î¡ î¡ î¡‘ î¡’ î¡“ - î¡” î¡• î¡– î¡—  î¡™ î¡š î¡› î¡œ î¡ î¡ž î¡Ÿ î¡  î¡¡ î¡¢ î¡£ -  + FE50 FE51 FE52 FE53 FE54 FE55 FE56 FE57 FE58 FE59 FE5A FE5B FE5C FE5D FE5E FE5F + FE60 FE61 FE62 FE63 FE64 FE65 FE66 FE67 FE68 FE69 FE6A FE6B FE6C FE6D FE6E FE6F + FE70 FE71 FE72 FE73 FE74 FE75 FE76 FE77 FE78 FE79 FE7A FE7B FE7C FE7D FE7E + FE80 FE81 FE82 FE83 FE84 FE85 FE86 FE87 FE88 FE89 FE8A FE8B FE8C FE8D FE8E FE8F + FE90 FE91 FE92 FE93 FE94 FE95 FE96 FE97 FE98 FE99 FE9A FE9B FE9C FE9D FE9E FE9F + FEA0 diff --git a/iconvdata/tst-tables.sh b/iconvdata/tst-tables.sh index e743239a76..bc57e1b83b 100755 --- a/iconvdata/tst-tables.sh +++ b/iconvdata/tst-tables.sh @@ -191,7 +191,7 @@ cat < + + * gen-unicode-ctype.c: New file. + * dump-ctype.c: New file. + * Makefile (distribute): Add them. + * locales/i18n: Update LC_CTYPE part to Unicode 3.0, using + gen-unicode-ctype.c. + (blank): Add U+1680. + (cntrl): Add U+2028, U+2029. + (space): Add U+1680, U+2028, U+2029. + (digit): Add Myanmar, Ethiopic, Khmer, Mongolian, fullwidth digits. + (alnum, alpha, print, graph, punct): Lots of additions. + (lower, upper, tolower, toupper, combining, combining_level3): Update. + (totitle): New map. + * tst-ctype-de_DE.ISO-8859-1.in: Mark U00B5 as lower; the Unicode 3.0 + towupper functions maps it to U039C. Mark U00A0 as graph, print, punct. + * tests-mbwc/dat_iswctype.c: Mark U00A0 as graph, print, punct. + * tests-mbwc/dat_iswgraph.c: Mark U00A0 as graph. + * tests-mbwc/dat_iswprint.c: Mark U00A0 as print. + * tests-mbwc/dat_iswpunct.c: Mark U00A0 as punct. + * tests-mbwc/dat_wcswidth.c: U00A0 is now print. + 2000-09-23 Bruno Haible * charmaps/GBK: Add commented mappings for GBK characters not yet in diff --git a/localedata/Makefile b/localedata/Makefile index f86584ab26..25ee02d828 100644 --- a/localedata/Makefile +++ b/localedata/Makefile @@ -72,7 +72,8 @@ distribute := CHECKSUMS README SUPPORTED ChangeLog \ $(wildcard tests-mbwc/*.[ch]) \ $(addprefix tst-fmon-locales/tstfmon_,$(fmon-tests)) \ gen-locale.sh show-ucs-data.c tst-langinfo.sh \ - tst-wctype.sh tst-wctype.input + tst-wctype.sh tst-wctype.input gen-unicode-ctype.c \ + dump-ctype.c # Get $(inst_i18ndir) defined. include ../Makeconfig diff --git a/localedata/dump-ctype.c b/localedata/dump-ctype.c new file mode 100644 index 0000000000..9514ca7654 --- /dev/null +++ b/localedata/dump-ctype.c @@ -0,0 +1,163 @@ +/* Dump the character classes and character maps of a locale to a bunch + of individual files which can be processed with diff, sed etc. + Copyright (C) 2000 Free Software Foundation, Inc. + This file is part of the GNU C Library. + Contributed by Bruno Haible , 2000. + + The GNU C Library is free software; you can redistribute it and/or + modify it under the terms of the GNU Library General Public License as + published by the Free Software Foundation; either version 2 of the + License, or (at your option) any later version. + + The GNU C Library is distributed in the hope that it will be useful, + but WITHOUT ANY WARRANTY; without even the implied warranty of + MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU + Library General Public License for more details. + + You should have received a copy of the GNU Library General Public + License along with the GNU UTF-8 Library; see the file COPYING.LIB. If not, + write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330, + Boston, MA 02111-1307, USA. */ + +/* Usage example: + $ dump-ctype de_DE.UTF-8 + */ + +#include +#include +#include +#include +#include +#include +#include + +static const char *program_name = "dump-ctype"; +static const char *locale; + +static const char *class_names[] = + { + "alnum", "alpha", "blank", "cntrl", "digit", "graph", "lower", + "print", "punct", "space", "upper", "xdigit" + }; + +static const char *map_names[] = + { + "tolower", "toupper", "totitle" + }; + +static void dump_class (const char *class_name) +{ + wctype_t class; + FILE *f; + unsigned int ch; + + class = wctype (class_name); + if (class == (wctype_t) 0) + { + fprintf (stderr, "%s %s: noexistent class %s\n", program_name, + locale, class_name); + return; + } + + f = fopen (class_name, "w"); + if (f == NULL) + { + fprintf (stderr, "%s %s: cannot open file %s/%s\n", program_name, + locale, locale, class_name); + exit (1); + } + + for (ch = 0; ch < 0x10000; ch++) + if (iswctype (ch, class)) + fprintf (f, "0x%04X\n", ch); + + if (ferror (f) || fclose (f)) + { + fprintf (stderr, "%s %s: I/O error on file %s/%s\n", program_name, + locale, locale, class_name); + exit (1); + } +} + +static void dump_map (const char *map_name) +{ + wctrans_t map; + FILE *f; + unsigned int ch; + + map = wctrans (map_name); + if (map == (wctrans_t) 0) + { + fprintf (stderr, "%s %s: noexistent map %s\n", program_name, + locale, map_name); + return; + } + + f = fopen (map_name, "w"); + if (f == NULL) + { + fprintf (stderr, "%s %s: cannot open file %s/%s\n", program_name, + locale, locale, map_name); + exit (1); + } + + for (ch = 0; ch < 0x10000; ch++) + if (towctrans (ch, map) != ch) + fprintf (f, "0x%04X\t0x%04X\n", ch, towctrans (ch, map)); + + if (ferror (f) || fclose (f)) + { + fprintf (stderr, "%s %s: I/O error on file %s/%s\n", program_name, + locale, locale, map_name); + exit (1); + } +} + +int main (int argc, char *argv[]) +{ + size_t i; + + if (argc != 2) + { + fprintf (stderr, "Usage: dump-ctype locale\n"); + exit (1); + } + locale = argv[1]; + + if (setlocale (LC_ALL, locale) == NULL) + { + fprintf (stderr, "%s: setlocale cannot switch to locale %s\n", + program_name, locale); + exit (1); + } + + if (mkdir (locale, 0777) < 0) + { + char buf[100]; + int save_errno = errno; + + sprintf (buf, "%s: cannot create directory %s", program_name, locale); + errno = save_errno; + perror (buf); + exit (1); + } + + if (chdir (locale) < 0) + { + char buf[100]; + int save_errno = errno; + + sprintf (buf, "%s: cannot chdir to %s", program_name, locale); + errno = save_errno; + perror (buf); + exit (1); + } + + for (i = 0; i < sizeof (class_names) / sizeof (class_names[0]); i++) + dump_class (class_names[i]); + + for (i = 0; i < sizeof (map_names) / sizeof (map_names[0]); i++) + dump_map (map_names[i]); + + return 0; +} diff --git a/localedata/gen-unicode-ctype.c b/localedata/gen-unicode-ctype.c new file mode 100644 index 0000000000..b45e70351a --- /dev/null +++ b/localedata/gen-unicode-ctype.c @@ -0,0 +1,792 @@ +/* Generate a Unicode conforming LC_CTYPE category from a UnicodeData file. + Copyright (C) 2000 Free Software Foundation, Inc. + This file is part of the GNU C Library. + Contributed by Bruno Haible , 2000. + + The GNU C Library is free software; you can redistribute it and/or + modify it under the terms of the GNU Library General Public License as + published by the Free Software Foundation; either version 2 of the + License, or (at your option) any later version. + + The GNU C Library is distributed in the hope that it will be useful, + but WITHOUT ANY WARRANTY; without even the implied warranty of + MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU + Library General Public License for more details. + + You should have received a copy of the GNU Library General Public + License along with the GNU UTF-8 Library; see the file COPYING.LIB. If not, + write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330, + Boston, MA 02111-1307, USA. */ + +/* Usage example: + $ gen-unicode /usr/local/share/Unidata/UnicodeData.txt \ + /usr/local/share/Unidata/PropList.txt \ + 3.0 + */ + +#include +#include +#include +#include +#include + +/* This structure represents one line in the UnicodeData.txt file. */ +struct unicode_attribute +{ + const char *name; /* Character name */ + const char *category; /* General category */ + const char *combining; /* Canonical combining classes */ + const char *bidi; /* Bidirectional category */ + const char *decomposition; /* Character decomposition mapping */ + const char *decdigit; /* Decimal digit value */ + const char *digit; /* Digit value */ + const char *numeric; /* Numeric value */ + int mirrored; /* mirrored */ + const char *oldname; /* Old Unicode 1.0 name */ + const char *comment; /* Comment */ + unsigned int upper; /* Uppercase mapping */ + unsigned int lower; /* Lowercase mapping */ + unsigned int title; /* Titlecase mapping */ +}; + +/* Missing fields are represented with "" for strings, and NONE for + characters. */ +#define NONE (~(unsigned int)0) + +/* The entire contents of the UnicodeData.txt file. */ +struct unicode_attribute unicode_attributes [0x10000]; + +/* Stores in unicode_attributes[i] the values from the given fields. */ +static void +fill_attribute (unsigned int i, + const char *field1, const char *field2, + const char *field3, const char *field4, + const char *field5, const char *field6, + const char *field7, const char *field8, + const char *field9, const char *field10, + const char *field11, const char *field12, + const char *field13, const char *field14) +{ + struct unicode_attribute * uni; + + if (i >= 0x10000) + { + fprintf (stderr, "index too large\n"); + exit (1); + } + uni = &unicode_attributes[i]; + /* Copy the strings. */ + uni->name = strdup (field1); + uni->category = (field2[0] == '\0' ? "" : strdup (field2)); + uni->combining = (field3[0] == '\0' ? "" : strdup (field3)); + uni->bidi = (field4[0] == '\0' ? "" : strdup (field4)); + uni->decomposition = (field5[0] == '\0' ? "" : strdup (field5)); + uni->decdigit = (field6[0] == '\0' ? "" : strdup (field6)); + uni->digit = (field7[0] == '\0' ? "" : strdup (field7)); + uni->numeric = (field8[0] == '\0' ? "" : strdup (field8)); + uni->mirrored = (field9[0] == 'Y'); + uni->oldname = (field10[0] == '\0' ? "" : strdup (field10)); + uni->comment = (field11[0] == '\0' ? "" : strdup (field11)); + uni->upper = (field12[0] =='\0' ? NONE : strtoul (field12, NULL, 16)); + uni->lower = (field13[0] =='\0' ? NONE : strtoul (field13, NULL, 16)); + uni->title = (field14[0] =='\0' ? NONE : strtoul (field14, NULL, 16)); +} + +/* Maximum length of a field in the UnicodeData.txt file. */ +#define FIELDLEN 120 + +/* Reads the next field from STREAM. The buffer BUFFER has size FIELDLEN. + Reads up to (but excluding) DELIM. + Returns 1 when a field was successfully read, otherwise 0. */ +static int +getfield (FILE *stream, char *buffer, int delim) +{ + int count = 0; + int c; + + for (; (c = getc (stream)), (c != EOF && c != delim); ) + { + /* The original unicode.org UnicodeData.txt file happens to have + CR/LF line terminators. Silently convert to LF. */ + if (c == '\r') + continue; + + /* Put c into the buffer. */ + if (++count >= FIELDLEN - 1) + { + fprintf (stderr, "field too long\n"); + exit (1); + } + *buffer++ = c; + } + + if (c == EOF) + return 0; + + *buffer = '\0'; + return 1; +} + +/* Stores in unicode_attributes[] the entire contents of the UnicodeData.txt + file. */ +static void +fill_attributes (const char *unicodedata_filename) +{ + unsigned int i, j; + FILE *stream; + char field0[FIELDLEN]; + char field1[FIELDLEN]; + char field2[FIELDLEN]; + char field3[FIELDLEN]; + char field4[FIELDLEN]; + char field5[FIELDLEN]; + char field6[FIELDLEN]; + char field7[FIELDLEN]; + char field8[FIELDLEN]; + char field9[FIELDLEN]; + char field10[FIELDLEN]; + char field11[FIELDLEN]; + char field12[FIELDLEN]; + char field13[FIELDLEN]; + char field14[FIELDLEN]; + int lineno = 0; + + for (i = 0; i < 0x10000; i++) + unicode_attributes[i].name = NULL; + + stream = fopen (unicodedata_filename, "r"); + if (stream == NULL) + { + fprintf (stderr, "error during fopen of '%s'\n", unicodedata_filename); + exit (1); + } + + for (;;) + { + int n; + + lineno++; + n = getfield(stream, field0, ';'); + n += getfield(stream, field1, ';'); + n += getfield(stream, field2, ';'); + n += getfield(stream, field3, ';'); + n += getfield(stream, field4, ';'); + n += getfield(stream, field5, ';'); + n += getfield(stream, field6, ';'); + n += getfield(stream, field7, ';'); + n += getfield(stream, field8, ';'); + n += getfield(stream, field9, ';'); + n += getfield(stream, field10, ';'); + n += getfield(stream, field11, ';'); + n += getfield(stream, field12, ';'); + n += getfield(stream, field13, ';'); + n += getfield(stream, field14, '\n'); + if (n == 0) + break; + if (n != 15) + { + fprintf (stderr, "short line in'%s':%d\n", + unicodedata_filename, lineno); + exit (1); + } + i = strtoul (field0, NULL, 16); + if (field1[0] == '<' + && strlen (field1) >= 9 + && !strcmp (field1 + strlen(field1) - 8, ", First>")) + { + /* Deal with a range. */ + lineno++; + n = getfield(stream, field0, ';'); + n += getfield(stream, field1, ';'); + n += getfield(stream, field2, ';'); + n += getfield(stream, field3, ';'); + n += getfield(stream, field4, ';'); + n += getfield(stream, field5, ';'); + n += getfield(stream, field6, ';'); + n += getfield(stream, field7, ';'); + n += getfield(stream, field8, ';'); + n += getfield(stream, field9, ';'); + n += getfield(stream, field10, ';'); + n += getfield(stream, field11, ';'); + n += getfield(stream, field12, ';'); + n += getfield(stream, field13, ';'); + n += getfield(stream, field14, '\n'); + if (n != 15) + { + fprintf (stderr, "missing end range in '%s':%d\n", + unicodedata_filename, lineno); + exit (1); + } + if (!(field1[0] == '<' + && strlen (field1) >= 8 + && !strcmp (field1 + strlen (field1) - 7, ", Last>"))) + { + fprintf (stderr, "missing end range in '%s':%d\n", + unicodedata_filename, lineno); + exit (1); + } + field1[strlen (field1) - 7] = '\0'; + j = strtoul (field0, NULL, 16); + for (; i <= j; i++) + fill_attribute (i, field1+1, field2, field3, field4, field5, + field6, field7, field8, field9, field10, + field11, field12, field13, field14); + } + else + { + /* Single character line */ + fill_attribute (i, field1, field2, field3, field4, field5, + field6, field7, field8, field9, field10, + field11, field12, field13, field14); + } + } + if (ferror (stream) || fclose (stream)) + { + fprintf (stderr, "error reading from '%s'\n", unicodedata_filename); + exit (1); + } +} + +/* The combining property from the PropList.txt file. */ +char unicode_combining[0x10000]; + +/* Stores in unicode_combining[] the Combining property from the + PropList.txt file. */ +static void +fill_combining (const char *proplist_filename) +{ + unsigned int i; + FILE *stream; + char buf[100+1]; + + for (i = 0; i < 0x10000; i++) + unicode_combining[i] = 0; + + stream = fopen (proplist_filename, "r"); + if (stream == NULL) + { + fprintf (stderr, "error during fopen of '%s'\n", proplist_filename); + exit (1); + } + + /* Search for the "Property dump for: 0x20000004 (Combining)" line. */ + do + { + if (fscanf (stream, "%100[^\n]\n", buf) < 1) + { + fprintf (stderr, "no combining property found in '%s'\n", + proplist_filename); + exit (1); + } + } + while (strstr (buf, "(Combining)") == NULL); + + for (;;) + { + unsigned int i1, i2; + + if (fscanf (stream, "%100[^\n]\n", buf) < 1) + { + fprintf (stderr, "premature end of combining property in '%s'\n", + proplist_filename); + exit (1); + } + if (buf[0] == '*') + break; + if (strlen (buf) >= 10 && buf[4] == '.' && buf[5] == '.') + { + if (sscanf (buf, "%4X..%4X", &i1, &i2) < 2) + { + fprintf (stderr, "parse error in combining property in '%s'\n", + proplist_filename); + exit (1); + } + } + else if (strlen (buf) >= 4) + { + if (sscanf (buf, "%4X", &i1) < 1) + { + fprintf (stderr, "parse error in combining property in '%s'\n", + proplist_filename); + exit (1); + } + i2 = i1; + } + else + { + fprintf (stderr, "parse error in combining property in '%s'\n", + proplist_filename); + exit (1); + } + for (i = i1; i <= i2; i++) + unicode_combining[i] = 1; + } + if (ferror (stream) || fclose (stream)) + { + fprintf (stderr, "error reading from '%s'\n", proplist_filename); + exit (1); + } +} + +/* Character mappings. */ + +static unsigned int +to_upper (unsigned int ch) +{ + if (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].upper != NONE) + return unicode_attributes[ch].upper; + else + return ch; +} + +static unsigned int +to_lower (unsigned int ch) +{ + if (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].lower != NONE) + return unicode_attributes[ch].lower; + else + return ch; +} + +static unsigned int +to_title (unsigned int ch) +{ + if (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].title != NONE) + return unicode_attributes[ch].title; + else + return ch; +} + +/* Character class properties. */ + +static bool +is_upper (unsigned int ch) +{ + return (to_lower (ch) != ch); +} + +static bool +is_lower (unsigned int ch) +{ + return (to_upper (ch) != ch) + /* is lowercase, but without simple to_upper mapping. */ + || (ch == 0x00DF); +} + +static bool +is_alpha (unsigned int ch) +{ + return (unicode_attributes[ch].name != NULL + && (unicode_attributes[ch].category[0] == 'L' + /* Avoid warning for . */ + || (ch == 0x0345) + /* Avoid warnings for ... */ + || (unicode_attributes[ch].category[0] == 'N' + && unicode_attributes[ch].category[1] == 'l') + /* Avoid warnings for ... */ + || (unicode_attributes[ch].category[0] == 'S' + && unicode_attributes[ch].category[1] == 'o' + && strstr (unicode_attributes[ch].name, " LETTER ") + != NULL))); +} + +static bool +is_digit (unsigned int ch) +{ + return (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].category[0] == 'N' + && unicode_attributes[ch].category[1] == 'd'); + /* Note: U+0BE7..U+0BEF and U+1369..U+1371 are digit systems without + a zero. Must add <0> in front of them by hand. */ +} + +static bool +is_outdigit (unsigned int ch) +{ + return (ch >= 0x0030 && ch <= 0x0039); +} + +static bool +is_blank (unsigned int ch) +{ + return (ch == 0x0009 /* '\t' */ + /* Category Zs without mention of "" */ + || (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].category[0] == 'Z' + && unicode_attributes[ch].category[1] == 's' + && !strstr (unicode_attributes[ch].decomposition, ""))); +} + +static bool +is_space (unsigned int ch) +{ + /* Don't make U+00A0 a space. Non-breaking space means that all programs + should treat it like a punctuation character, not like a space. */ + return (ch == 0x0020 /* ' ' */ + || ch == 0x000C /* '\f' */ + || ch == 0x000A /* '\n' */ + || ch == 0x000D /* '\r' */ + || ch == 0x0009 /* '\t' */ + || ch == 0x000B /* '\v' */ + /* Categories Zl, Zp, and Zs without mention of "" */ + || (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].category[0] == 'Z' + && (unicode_attributes[ch].category[1] == 'l' + || unicode_attributes[ch].category[1] == 'p' + || (unicode_attributes[ch].category[1] == 's' + && !strstr (unicode_attributes[ch].decomposition, + ""))))); +} + +static bool +is_cntrl (unsigned int ch) +{ + return (unicode_attributes[ch].name != NULL + && (!strcmp (unicode_attributes[ch].name, "") + /* Categories Zl and Zp */ + || (unicode_attributes[ch].category[0] == 'Z' + && (unicode_attributes[ch].category[1] == 'l' + || unicode_attributes[ch].category[1] == 'p')))); +} + +static bool +is_xdigit (unsigned int ch) +{ + return is_digit (ch) + || (ch >= 0x0041 && ch <= 0x0046) + || (ch >= 0x0061 && ch <= 0x0066); +} + +static bool +is_graph (unsigned int ch) +{ + return (unicode_attributes[ch].name != NULL + && strcmp (unicode_attributes[ch].name, "") + && !is_space (ch)); +} + +static bool +is_print (unsigned int ch) +{ + return (unicode_attributes[ch].name != NULL + && strcmp (unicode_attributes[ch].name, "") + /* Categories Zl and Zp */ + && !(unicode_attributes[ch].name != NULL + && unicode_attributes[ch].category[0] == 'Z' + && (unicode_attributes[ch].category[1] == 'l' + || unicode_attributes[ch].category[1] == 'p'))); +} + +static bool +is_punct (unsigned int ch) +{ +#if 0 + return (unicode_attributes[ch].name != NULL + && unicode_attributes[ch].category[0] == 'P'); +#else + /* The traditional POSIX definition of punctuation is every graphic, + non-alphanumeric character. */ + return (is_graph (ch) && !is_alpha (ch) && !is_digit (ch)); +#endif +} + +static bool +is_combining (unsigned int ch) +{ + return (unicode_attributes[ch].name != NULL + && unicode_combining[ch] != 0); +} + +static bool +is_combining_level3 (unsigned int ch) +{ + return is_combining (ch) + && !(unicode_attributes[ch].combining[0] != '\0' + && unicode_attributes[ch].combining[0] != '0' + && strtoul (unicode_attributes[ch].combining, NULL, 10) >= 200); +} + +/* Output a character class (= property) table. */ + +static void +output_charclass (FILE *stream, const char *classname, + bool (*func) (unsigned int)) +{ + char table[0x10000]; + unsigned int i; + bool need_semicolon; + const int max_column = 75; + int column; + + for (i = 0; i < 0x10000; i++) + table[i] = (int) func (i); + + fprintf (stream, "%s ", classname); + need_semicolon = false; + column = 1000; + for (i = 0; i < 0x10000; ) + { + if (!table[i]) + i++; + else + { + unsigned int low, high; + char buf[17]; + + low = i; + do + i++; + while (i < 0x10000 && table[i]); + high = i - 1; + + if (low == high) + sprintf (buf, "", low); + else + sprintf (buf, "..", low, high); + + if (need_semicolon) + { + fprintf (stream, ";"); + column++; + } + + if (column + strlen (buf) > max_column) + { + fprintf (stream, "/\n "); + column = 3; + } + + fprintf (stream, "%s", buf); + column += strlen (buf); + need_semicolon = true; + } + } + fprintf (stream, "\n"); +} + +/* Output a character mapping table. */ + +static void +output_charmap (FILE *stream, const char *mapname, + unsigned int (*func) (unsigned int)) +{ + char table[0x10000]; + unsigned int i; + bool need_semicolon; + const int max_column = 75; + int column; + + for (i = 0; i < 0x10000; i++) + table[i] = (func (i) != i); + + fprintf (stream, "%s ", mapname); + need_semicolon = false; + column = 1000; + for (i = 0; i < 0x10000; i++) + if (table[i]) + { + char buf[18]; + + sprintf (buf, "(,)", i, func (i)); + + if (need_semicolon) + { + fprintf (stream, ";"); + column++; + } + + if (column + strlen (buf) > max_column) + { + fprintf (stream, "/\n "); + column = 3; + } + + fprintf (stream, "%s", buf); + column += strlen (buf); + need_semicolon = true; + } + fprintf (stream, "\n"); +} + +/* Output the width table. */ + +static void +output_widthmap (FILE *stream) +{ +} + +/* Output the tables to the given file. */ + +static void +output_tables (const char *filename, const char *version) +{ + FILE *stream; + unsigned int ch; + + stream = fopen (filename, "w"); + if (stream == NULL) + { + fprintf (stderr, "cannot open '%s' for writing\n", filename); + exit (1); + } + + fprintf (stream, "escape_char /\n"); + fprintf (stream, "comment_char %%\n"); + fprintf (stream, "\n"); + fprintf (stream, "%% Generated automatically by gen-unicode for Unicode %s.\n", + version); + fprintf (stream, "\n"); + + fprintf (stream, "LC_IDENTIFICATION\n"); + fprintf (stream, "title \"Unicode %s FDCC-set\"\n", version); + fprintf (stream, "source \"UnicodeData.txt, PropList.txt\"\n"); + fprintf (stream, "address \"\"\n"); + fprintf (stream, "contact \"\"\n"); + fprintf (stream, "email \"bug-glibc@gnu.org\"\n"); + fprintf (stream, "tel \"\"\n"); + fprintf (stream, "fax \"\"\n"); + fprintf (stream, "language \"\"\n"); + fprintf (stream, "territory \"Earth\"\n"); + fprintf (stream, "revision \"%s\"\n", version); + { + time_t now; + char date[11]; + now = time (NULL); + strftime (date, sizeof (date), "%Y-%m-%d", gmtime (&now)); + fprintf (stream, "date \"%s\"\n", date); + } + fprintf (stream, "category \"unicode:2000\";LC_CTYPE\n"); + fprintf (stream, "END LC_IDENTIFICATION\n"); + fprintf (stream, "\n"); + + /* Verifications. */ + for (ch = 0; ch < 0x10000; ch++) + { + /* toupper restriction: "Only characters specified for the keywords + lower and upper shall be specified. */ + if (to_upper (ch) != ch && !(is_lower (ch) || is_upper (ch))) + fprintf (stderr, + " is not upper|lower but toupper(0x%04X) = 0x%04X\n", + ch, ch, to_upper (ch)); + + /* tolower restriction: "Only characters specified for the keywords + lower and upper shall be specified. */ + if (to_lower (ch) != ch && !(is_lower (ch) || is_upper (ch))) + fprintf (stderr, + " is not upper|lower but tolower(0x%04X) = 0x%04X\n", + ch, ch, to_lower (ch)); + + /* alpha restriction: "Characters classified as either upper or lower + shall automatically belong to this class. */ + if ((is_lower (ch) || is_upper (ch)) && !is_alpha (ch)) + fprintf (stderr, " is upper|lower but not alpha\n", ch); + + /* alpha restriction: "No character specified for the keywords cntrl, + digit, punct or space shall be specified." */ + if (is_alpha (ch) && is_cntrl (ch)) + fprintf (stderr, " is alpha and cntrl\n", ch); + if (is_alpha (ch) && is_digit (ch)) + fprintf (stderr, " is alpha and digit\n", ch); + if (is_alpha (ch) && is_punct (ch)) + fprintf (stderr, " is alpha and punct\n", ch); + if (is_alpha (ch) && is_space (ch)) + fprintf (stderr, " is alpha and space\n", ch); + + /* space restriction: "No character specified for the keywords upper, + lower, alpha, digit, graph or xdigit shall be specified." + upper, lower, alpha already checked above. */ + if (is_space (ch) && is_digit (ch)) + fprintf (stderr, " is space and digit\n", ch); + if (is_space (ch) && is_graph (ch)) + fprintf (stderr, " is space and graph\n", ch); + if (is_space (ch) && is_xdigit (ch)) + fprintf (stderr, " is space and xdigit\n", ch); + + /* cntrl restriction: "No character specified for the keywords upper, + lower, alpha, digit, punct, graph, print or xdigit shall be + specified." upper, lower, alpha already checked above. */ + if (is_cntrl (ch) && is_digit (ch)) + fprintf (stderr, " is cntrl and digit\n", ch); + if (is_cntrl (ch) && is_punct (ch)) + fprintf (stderr, " is cntrl and punct\n", ch); + if (is_cntrl (ch) && is_graph (ch)) + fprintf (stderr, " is cntrl and graph\n", ch); + if (is_cntrl (ch) && is_print (ch)) + fprintf (stderr, " is cntrl and print\n", ch); + if (is_cntrl (ch) && is_xdigit (ch)) + fprintf (stderr, " is cntrl and xdigit\n", ch); + + /* punct restriction: "No character specified for the keywords upper, + lower, alpha, digit, cntrl, xdigit or as the character shall + be specified." upper, lower, alpha, cntrl already checked above. */ + if (is_punct (ch) && is_digit (ch)) + fprintf (stderr, " is punct and digit\n", ch); + if (is_punct (ch) && is_xdigit (ch)) + fprintf (stderr, " is punct and xdigit\n", ch); + if (is_punct (ch) && (ch == 0x0020)) + fprintf (stderr, " is punct\n", ch); + + /* graph restriction: "No character specified for the keyword cntrl + shall be specified." Already checked above. */ + + /* print restriction: "No character specified for the keyword cntrl + shall be specified." Already checked above. */ + + /* graph - print relation: differ only in the character. + How is this possible if there are more than one space character?! + I think susv2/xbd/locale.html should speak of "space characters", + not "space character". */ + if (is_print (ch) && !(is_graph (ch) || /* ch == 0x0020 */ is_space (ch))) + fprintf (stderr, " is print but not graph|\n", ch); + if (!is_print (ch) && (is_graph (ch) || ch == 0x0020)) + fprintf (stderr, " is graph| but not print\n", ch); + } + + fprintf (stream, "LC_CTYPE\n"); + output_charclass (stream, "upper", is_upper); + output_charclass (stream, "lower", is_lower); + output_charclass (stream, "alpha", is_alpha); + output_charclass (stream, "digit", is_digit); + output_charclass (stream, "outdigit", is_outdigit); + output_charclass (stream, "blank", is_blank); + output_charclass (stream, "space", is_space); + output_charclass (stream, "cntrl", is_cntrl); + output_charclass (stream, "punct", is_punct); + output_charclass (stream, "xdigit", is_xdigit); + output_charclass (stream, "graph", is_graph); + output_charclass (stream, "print", is_print); + output_charclass (stream, "class \"combining\";", is_combining); + output_charclass (stream, "class \"combining_level3\";", is_combining_level3); + output_charmap (stream, "toupper", to_upper); + output_charmap (stream, "tolower", to_lower); + output_charmap (stream, "map \"totitle\";", to_title); + output_widthmap (stream); + fprintf (stream, "END LC_CTYPE\n"); + + if (ferror (stream) || fclose (stream)) + { + fprintf (stderr, "error writing to '%s'\n", filename); + exit (1); + } +} + +int +main (int argc, char * argv[]) +{ + if (argc != 4) + { + fprintf (stderr, "Usage: %s UnicodeData.txt PropList.txt version\n", + argv[0]); + exit (1); + } + + fill_attributes (argv[1]); + fill_combining (argv[2]); + + output_tables ("unicode", argv[3]); + + return 0; +} diff --git a/localedata/locales/i18n b/localedata/locales/i18n index 965eb6b912..b284ded6c0 100644 --- a/localedata/locales/i18n +++ b/localedata/locales/i18n @@ -33,7 +33,10 @@ END LC_IDENTIFICATION LC_CTYPE % The following is the 14652 i18n fdcc-set LC_CTYPE category. -% It covers ISO/IEC 10646-1 including Cor.1 and AMD 1 thru 9 +% It covers Unicode version 3.0. +% The character classes and mapping tables were automatically generated +% using the gen-unicode-ctype.c program. + % The "upper" class reflects the uppercase characters of class "alpha" upper / % TABLE 1 BASIC LATIN/ @@ -50,31 +53,29 @@ upper / ..;..;;;/ ..;;;;/ ..(2)..;/ - ;;;;;..;/ + ;;;;;;..;/ ;;;;;;;;/ ;;/ ..(2)..;/ ..(2)..;/ - ;;;;;;..(2)..;/ + ;;;..;..(2)..;/ % TABLE 5 LATIN EXTENDED-B/ ..(2)..;..(2)..;/ % TABLE 6 IPA EXTENSIONS/ - ;;;;/ - ;;;;;;;/ % TABLE 9 BASIC GREEK/ ;..;;;;..;/ - ..;/ + ..;;;;/ % TABLE 10 GREEK SYMBOLS AND COPTIC/ - ..(2)..;/ + ..(2)..;/ % TABLE 11 CYRILLIC/ - ..;..;..(2)..;/ + ..;..(2)..;/ % TABLE 12 CYRILLIC/ - ;..(2)..;;;;;/ - ..(2)..;..(2)..;;/ + ;..(2)..;;;;;/ + ..(2)..;;/ % TABLE 13 ARMENIAN/ ..;/ % TABLE 28 GEORGIAN/ - ..;/ +% is not addressed as the letters does not have a uppercase/lowercase relation/ % TABLE 31 LATIN EXTENDED ADDITIONAL/ ..(2)..;/ % TABLE 32 LATIN EXTENDED ADDITIONAL/ @@ -85,167 +86,227 @@ upper / ..;..(2)..;..;/ % TABLE 34 GREEK EXTENDED/ ..;..;..;..;/ - ..;..;..;.. -% TABLE 28 GEORGIAN is not addressed as the letters does not have -% a uppercase/lowercase relation -% + ..;..;..;..;/ +% LETTERLIKE SYMBOLS/ + ;..;/ +% NUMBER FORMS/ + ..;/ +% ENCLOSED ALPHANUMERICS/ + ..;/ +% HALFWIDTH AND FULLWIDTH FORMS/ + .. + % The "lower" class reflects the lowercase characters of class "alpha" lower / % TABLE 1 BASIC LATIN/ ..;/ % TABLE 2 LATIN-1 SUPPLEMENT/ - ..;..;/ + ;..;..;/ % TABLE 3 LATIN EXTENDED-A/ - ..(2)..;..(2)..;/ - ..(2)..;..(2)..;;/ + ..(2)..;..(2)..;/ + ..(2)..;..(2)..;;/ % TABLE 4 LATIN EXTENDED-B/ - ;;;;;;;;/ - ..;;;;;;;;/ - ;;;;;;;;/ + ;;;;;;/ + ;;;;;;/ + ;;;;;;;;/ ;;;..(2)..;/ - ..(2)..;;;;;;;/ + ..(2)..;;;;..(2)..;/ % TABLE 5 LATIN EXTENDED-B/ ..(2)..;..(2)..;/ % TABLE 6 IPA EXTENSIONS/ - ..;..;..;/ + ;;;;;;;;;/ + ;;;;;;;;;/ + ;/ +% COMBINING DIACRITICAL MARKS/ + ;/ % TABLE 9 BASIC GREEK/ - ;..;/ + ..;..;/ % TABLE 10 GREEK SYMBOLS AND COPTIC/ - ..(2)..;/ + ;;;;..(2)..;..;/ % TABLE 11 CYRILLIC/ - ..;..;;;..(2)..;/ + ..;..(2)..;/ % TABLE 12 CYRILLIC/ - ;..(2)..;;;;;/ - ..(2)..;..(2)..;;/ + ;..(2)..;;;;;/ + ..(2)..;;/ % TABLE 13 ARMENIAN/ - ..;/ + ..;/ % TABLE 28 GEORGIAN/ - ..;/ +% is not addressed as the letters does not have a uppercase/lowercase relation/ % TABLE 31 and 32 LATIN EXTENDED ADDITIONAL/ - ..(2)..;..(2)..;/ -% TABLE 33 and 34 GREEK EXTENDED/ - ..;..;..;..;/ - ..;..(2)..;..;/ -% TABLE 34 GREEK EXTENDED/ + ..(2)..;;..(2)..;/ +% TABLE 33 GREEK EXTENDED/ ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ;;..;;;..;/ - ;;..;..;;;/ + ..;..(2)..;..;..;/ +% TABLE 34 GREEK EXTENDED/ + ..;..;..;;;/ + ;;;;;;;;/ + ;/ % TABLE 35 SUPERSCRIPTS AND SUBSCRIPTS, CURRENCY SYMBOLS/ - -% +% NUMBER FORMS/ + ..;/ +% ENCLOSED ALPHANUMERICS/ + ..;/ +% HALFWIDTH AND FULLWIDTH FORMS/ + .. + % The "alpha" class of the "i18n" FDCC-set is reflecting % the recommendations in TR 10176 annex A alpha / % TABLE 1 BASIC LATIN/ ..;..;/ % TABLE 2 LATIN-1 SUPPLEMENT/ - ;;..;..;..;/ + ;;;..;..;/ + ..;/ % TABLE 3 LATIN EXTENDED-A/ ..;/ % TABLE 4 and 5 LATIN EXTENDED-B/ ..;..;/ % TABLE 6 IPA EXTENSIONS/ - ..;/ -% TABLE 31 and 32 LATIN EXTENDED ADDITIONAL/ - ..;..;/ -% TABLE 35 SUPERSCRIPTS AND SUBSCRIPTS, CURRENCY SYMBOLS/ - ;/ + ..;/ +% SPACING MODIFIER LETTERS/ + ..;..;;;..;/ + ;/ +% COMBINING DIACRITICAL MARKS/ + ;/ % TABLE 9 BASIC GREEK/ - ;..;;..;..;/ + ;;..;;..;/ + ..;/ % TABLE 10 GREEK SYMBOLS AND COPTIC/ - ..;;;;;..;/ -% TABLE 33 and 34 GREEK EXTENDED/ - ..;..;..;..;/ - ..;;;;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;/ + ..;..;/ % TABLE 11 and 12 CYRILLIC/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;/ + ..;..;..;..;/ + ..;..;/ % TABLE 13 ARMENIAN/ - ..;..;/ + ..;;..;/ % TABLE 14 HEBREW/ - ..;..;;..;/ ..;..;/ % TABLE 15 and 16 ARABIC/ - ..;..;..;..;/ - ..;..;..;..;/ + ..;..;..;;/ + ..;..;/ +% SYRIAC/ + ;..;/ +% THAANA/ + ..;/ % TABLE 17 DEVANAGARI/ - ..;..;..;..;/ - ..;/ + ..;;;..;/ % TABLE 18 BENGALI/ - ..;..;..;/ - ..;..;;..;/ - ..;..;..;..;/ - ..;..;/ + ..;;;..;..;/ + ;..;;;..;/ + ..;/ % TABLE 19 GURMUKHI/ - ;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ;;/ + ..;;;..;..;/ + ;;;;;;..;/ + ;..;/ % TABLE 20 GUJARATI/ - ..;..;;..;/ - ..;..;..;..;/ - ..;..;..;;;/ + ..;;..;..;/ + ..;;;..;;;/ + ;/ % TABLE 21 ORIYA/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ + ..;;;..;..;/ + ;;..;;;;/ + ..;/ % TABLE 22 TAMIL/ - ..;..;..;..;/ - ..;;..;..;/ - ..;..;..;..;/ - ..;..;/ + ..;..;..;;;/ + ;;;;;..;/ + ..;..;/ % TABLE 23 TELUGU/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;/ + ..;..;..;..;/ + ..;..;/ % TABLE 24 KANNADA/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;;..;/ + ..;..;..;..;/ + ..;;..;/ % TABLE 25 MALAYALAM/ - ..;..;..;..;/ - ..;..;..;..;/ + ..;..;..;..;/ ..;/ +% SINHALA/ + ..;..;..;;/ + ..;/ % TABLE 26 THAI/ - ..;..;/ + ..;;;..;/ % TABLE 27 LAO/ ..;;..;;;/ ..;..;..;;;/ - ..;..;..;..;/ - ..;;..;..;/ -% TIBETAN Amendment 6/ - ;..;;;;..;/ - ..;/ - ..;..;..;;/ - ..;..;;/ + ..;..;..;;/ + ..;;..;/ +% TIBETAN/ + ;..;..;..;/ +% MYANMAR/ + ..;..;;;..;/ % TABLE 28 GEORGIAN/ ..;..;/ +% HANGUL JAMO/ + ..;..;..;/ +% ETHIOPIC/ + ..;..;;..;/ + ..;;..;..;;/ + ..;..;;..;/ + ..;;..;..;/ + ..;..;..;;/ + ..;..;..;..;/ +% CHEROKEE/ + ..;/ +% UNIFIED CANADIAN ABORIGINAL SYLLABICS/ + ..;..;/ +% OGHAM/ + ..;/ +% RUNIC/ + ..;/ +% KHMER/ + ..;/ +% MONGOLIAN/ + ..;..;/ +% TABLE 31 and 32 LATIN EXTENDED ADDITIONAL/ + ..;..;/ +% TABLE 33 and 34 GREEK EXTENDED/ + ..;..;..;..;/ + ..;;;;..;/ + ..;..;;..;/ + ..;..;..;..;/ + ..;..;/ +% TABLE 35 SUPERSCRIPTS AND SUBSCRIPTS, CURRENCY SYMBOLS/ + ;/ +% LETTERLIKE SYMBOLS/ + ;;..;;..;;/ + ;..;..;..;/ +% NUMBER FORMS/ + ..;/ +% ENCLOSED ALPHANUMERICS/ + ..;/ +% CJK SYMBOLS AND PUNCTUATION/ + ..;..;..;..;/ % TABLE 50 HIRAGANA/ - ..;..;/ + ..;..;/ % TABLE 51 KATAKANA/ - ..;..;/ + ..;..;/ % TABLE 52 BOPOMOFO/ ..;/ -% Miscellaneous/ - ;..;;..;/ - ..;..;;;;;/ - ;..;.. +% HANGUL COMPATIBILITY JAMO/ + ..;/ +% BOPOMOFO EXTENDED/ + ..;/ +% CJK UNIFIED IDEOGRAPHS EXTENSION/ + ..;/ +% CJK UNIFIED IDEOGRAPHS/ + ..;/ +% YI SYLLABLES/ + ..;/ +% HANGUL SYLLABLES/ + ..;/ +% CJK COMPATIBILITY IDEOGRAPHS/ + ..;/ +% ALPHABETIC PRESENTATION FORMS/ + ..;..;;..;/ + ..;..;;;;;/ + ;..;/ +% ARABIC PRESENTATION FORMS/ + ..;..;..;..;/ + ..;/ +% ARABIC PRESENTATION FORMS/ + ..;;..;/ +% HALFWIDTH AND FULLWIDTH FORMS/ + ..;..;..;..;/ + ..;..;.. -% XXX The original version of this also contained the CJK and Hangul -% XXX ideographs here. This seems not to be useful since nobody -% XXX expects them to be here and it bloats the tables. -% CJK unified ideographs/ -% ..;/ -% HANGUL amendment 5/ -% ..;/ - -% % The "digit" class of the "i18n" FDCC-set is reflecting % the recommendations in TR 10176 annex A digit / @@ -275,120 +336,277 @@ digit / ..;/ % TABLE 27 LAO/ ..;/ -% TIBETAN Amendment 6/ - .. -% +% TIBETAN/ + ..;/ +% MYANMAR/ + ..;/ +% ETHIOPIC/ + <0>;..;/ +% KHMER/ + ..;/ +% MONGOLIAN/ + ..;/ +% HALFWIDTH AND FULLWIDTH FORMS/ + .. + outdigit .. -% + space / % ISO/IEC 6429/ - ..;/ + ..;/ % TABLE 1 BASIC LATIN/ - ;/ + ;/ +% OGHAM/ + ;/ % TABLE 35 GENERAL PUNCTUATION/ - ..;..;/ + ..;..;;;/ % TABLE 50 CJK SYMBOLS AND PUNCTUATION, HIRAGANA/ - -% -cntrl ..;.. -% + + +cntrl / + ..;..;/ +% Treat the Line/Paragraph Separators as control characters, like Line Feed./ + ; + punct / ..;..;..;..;/ - ..;..;..;..;/ - ;;/ - ;;..;;;;;/ - ;;;;;;..;/ - ..;;..;..;;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;;..;;..;/ - ..;..;;;;;;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;;;..;/ - ..;..;;..;..;/ - ..;..;..;;..;/ - ..;..; -% + ..;..;..;..;/ + ;;..;..;..;/ + ..;..;..;..;/ + ..;;..;;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ;..;..;;;/ + ..;..;..;..;/ + ;;..;..;..;/ + ;..;..;..;;/ + ..;;..;..;/ + ..;;..;..;;/ + ;..;..;..;/ + ..;..;;..;/ + ..;..;..;;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;;..;;..;/ + ;..;..;;..;/ + ;..;..;;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;;;..;..;/ + ..;..;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;/ + ..;..;;;;;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;/ + ..;;;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + .. + graph / - ..;..;..;/ - ..;..;..;..;/ - ;;;;;;..;;/ - ..;..;..;;;;/ - ;..;..;..;/ - ..;..;..;;;/ - ;;..;..;;;/ - ..;..;..;;/ - ..;..;..;/ - ..;..;..;;;;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;;;/ - ..;..;;..;;/ - ..;;;..;;;;/ - ..;..;;..;;;/ - ..;..;;;;;/ - ;;;..;;;..;/ - ..;;..;..;..;/ - ;..;..;..;/ - ;;..;..;..;/ - ..;;;..;..;/ - ..;;;..;..;/ - ;;..;..;;;/ - ..;;;;;..;/ - ..;;;..;..;/ - ..;;;;;;;;/ - ..;..;..;..;/ - ..;..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;;..;;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;;..;..;/ + ..;;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;;..;/ + ..;..;;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ ..;..;..;..;/ ..;..;..;..;/ - ;;;;..;;;/ + ..;..;..;..;/ ..;..;..;..;/ ..;..;..;..;/ - ;;;;;..;;;/ - ..;..;..;..;/ - ..;..;..;;;;/ - ..;..;..;;;;/ - ;;;;..;..;/ - ..;;;;;..;/ - ..;..;;..;..;/ - ;;/ - ..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;;/ + ..;;..;;..;/ + ..;..;..;..;/ + ;..;;;..;/ + ..;..;;;..;/ + ..;..;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ ..;..;;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;;;;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;;/ - ..;;..;..;..;/ - ..;..;..;;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;..;..;/ - ..;..;;;;;;/ + ..;..;..;..;/ + ;..;..;;..;/ + ..;;..;..;;/ + ..;..;;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;;..;/ + ..;..;..;..;/ + ..;;..;..;/ ..;..;..;..;/ ..;..;..;..;/ - ..;..;..;;..;/ - ;..;..;..;/ - ..;..;..;..;/ - ..; -% -% "print" is by default "graph", and the character -% -xdigit ..;..;.. -% -blank ;;..;..; -% + ..;..;..;;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;.. + +print / + ..;..;..;..;/ + ..;..;..;..;/ + ;;..;;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;;..;..;/ + ..;;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;;..;/ + ..;..;;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;;/ + ..;;..;;..;/ + ..;..;..;..;/ + ;..;;;..;/ + ..;..;;;..;/ + ..;..;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;;..;/ + ..;..;..;..;/ + ;..;..;;..;/ + ..;;..;..;;/ + ..;..;;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;;..;;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + .. + +xdigit / + ..;..;.. + +blank ;;;..;..; + toupper / (,);(,);(,);(,);/ (,);(,);(,);(,);/ @@ -396,55 +614,54 @@ toupper / (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ @@ -453,77 +670,68 @@ toupper / (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);/ - (,);(,);(,);(,);/ - (,);(,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ @@ -557,9 +765,27 @@ toupper / (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,) + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,) + tolower / (,);(,);(,);(,);/ (,);(,);(,);(,);/ @@ -575,13 +801,13 @@ tolower / (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ @@ -589,178 +815,385 @@ tolower / (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);/ - (,);(,);(,);/ - (,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);/ - (,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,);(,);/ - (,);(,);(,) -% + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,) + +map "totitle"; / + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,);(,);(,);/ + (,);(,) + % The "combining" class reflects ISO/IEC 10646-1 annex B.1 % That is, all combining characters (level 2+3). -class "combining"; / - ..; ..; ..;/ - ..;..;..;/ - ..;;;;;..;;/ - ..;;;..;..;;/ - ..;..;;;..;;/ - ..;;;..;;;;/ - ;;..;;;..;/ - ;;..;;..;..;/ - ..;..;;..;;;/ - ..;;;;;..;/ - ..;..;;..;..;/ - ..;..;;;;;/ - ..;..;..;;;/ - ;;..;..;..;;/ - ;..;..;;..;/ - ;;..;;;;;;/ - ;;..;..;;..;/ - ;..;..;;..;/ - ;; -% +class "combining"; / + ..;..;..;..;/ + ..;..;..;;/ + ..;;..;;..;/ + ..;..;;..;/ + ..;..;;..;/ + ..;..;..;;/ + ..;..;..;;/ + ..;;;..;..;/ + ..;..;..;;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;;..;;/ + ..;..;;..;/ + ..;;..;..;/ + ..;..;;;;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;;..;/ + ..;..;..;;/ + .. + % The "combining_level3" class reflects ISO/IEC 10646-1 annex B.2 % That is, combining characters of level 3. -class "combining_level3"; / - ..;..;..;..;/ - ..;..;..;;/ - ;;;;;;;/ - ;;;;;;;;;/ - ;;;;..;; -% +class "combining_level3"; / + ..;..;..;..;/ + ;..;..;;..;/ + ;..;..;;..;/ + ..;..;;..;/ + ..;..;;..;;/ + ;..;..;..;/ + ..;..;;..;/ + ..;..;..;;/ + ..;..;..;..;/ + ..;..;..;..;/ + ;..;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..;..;;/ + ..;;..;;..;/ + ..;;..;..;;/ + ..;..;..;..;/ + ..;;..;..;/ + ..;..;..;..;/ + ..;..;..;..;/ + ..;..; translit_start diff --git a/localedata/tests-mbwc/dat_iswctype.c b/localedata/tests-mbwc/dat_iswctype.c index 86d0835304..644cbbc273 100644 --- a/localedata/tests-mbwc/dat_iswctype.c +++ b/localedata/tests-mbwc/dat_iswctype.c @@ -81,7 +81,11 @@ TST_ISWCTYPE tst_iswctype_loc [] = { { { 0x00B9, "digit" }, { 0,1,0 } }, /* SUP 1 */ { { 0x00BE, "digit" }, { 0,1,0 } }, /* 3/4 */ { { 0x009F, "graph" }, { 0,1,0 } }, /* CTRL */ +#ifdef SHOJI_IS_RIGHT { { 0x00A0, "graph" }, { 0,1,0 } }, /* NB SPACE */ +#else + { { 0x00A0, "graph" }, { 0,0,0 } }, /* NB SPACE */ +#endif { { 0x00A1, "graph" }, { 0,0,0 } }, /* UD ! */ { { 0x00B1, "graph" }, { 0,0,0 } }, /* +- sign */ { { 0x00B3, "graph" }, { 0,0,0 } }, /* SUP 3 */ @@ -97,7 +101,11 @@ TST_ISWCTYPE tst_iswctype_loc [] = { { { 0x00F8, "graph" }, { 0,0,0 } }, /* o stroke */ { { 0x00FF, "graph" }, { 0,0,0 } }, /* y dia */ { { 0x009F, "print" }, { 0,1,0 } }, /* CTRL */ +#ifdef SHOJI_IS_RIGHT { { 0x00A0, "print" }, { 0,1,0 } }, /* NB SPACE */ +#else + { { 0x00A0, "print" }, { 0,0,0 } }, /* NB SPACE */ +#endif { { 0x00A1, "print" }, { 0,0,0 } }, /* UD ! */ { { 0x00B1, "print" }, { 0,0,0 } }, /* +- sign */ { { 0x00B4, "print" }, { 0,0,0 } }, /* ACUTE */ @@ -112,7 +120,11 @@ TST_ISWCTYPE tst_iswctype_loc [] = { { { 0x00F8, "print" }, { 0,0,0 } }, /* o stroke */ { { 0x00FF, "print" }, { 0,0,0 } }, /* y dia */ { { 0x009F, "punct" }, { 0,1,0 } }, /* CTRL */ +#ifdef SHOJI_IS_RIGHT { { 0x00A0, "punct" }, { 0,1,0 } }, /* NB SPACE */ +#else + { { 0x00A0, "punct" }, { 0,0,0 } }, /* NB SPACE */ +#endif { { 0x00A1, "punct" }, { 0,0,0 } }, /* UD ! */ { { 0x00B0, "punct" }, { 0,0,0 } }, /* Degree */ { { 0x00B1, "punct" }, { 0,0,0 } }, /* +- sign */ diff --git a/localedata/tests-mbwc/dat_iswgraph.c b/localedata/tests-mbwc/dat_iswgraph.c index 98583e2fd3..0ab56d273e 100644 --- a/localedata/tests-mbwc/dat_iswgraph.c +++ b/localedata/tests-mbwc/dat_iswgraph.c @@ -16,7 +16,11 @@ TST_ISW_LOC (GRAPH, graph) = { { { { 0x0080 }, { 0,1,0 } }, /* CTRL */ { { 0x009F }, { 0,1,0 } }, /* CTRL */ +#ifdef SHOJI_IS_RIGHT { { 0x00A0 }, { 0,1,0 } }, /* NB SPACE */ +#else + { { 0x00A0 }, { 0,0,0 } }, /* NB SPACE */ +#endif { { 0x00A1 }, { 0,0,0 } }, /* UD ! */ { { 0x00B0 }, { 0,0,0 } }, /* Degree */ { { 0x00B1 }, { 0,0,0 } }, /* +- sign */ diff --git a/localedata/tests-mbwc/dat_iswprint.c b/localedata/tests-mbwc/dat_iswprint.c index a7cf34cffb..a574a5906b 100644 --- a/localedata/tests-mbwc/dat_iswprint.c +++ b/localedata/tests-mbwc/dat_iswprint.c @@ -16,7 +16,11 @@ TST_ISW_LOC (PRINT, print) = { { { { 0x0080 }, { 0,1,0 } }, /* CTRL */ { { 0x009F }, { 0,1,0 } }, /* CTRL */ +#ifdef SHOJI_IS_RIGHT { { 0x00A0 }, { 0,1,0 } }, /* NB SPACE */ +#else + { { 0x00A0 }, { 0,0,0 } }, /* NB SPACE */ +#endif { { 0x00A1 }, { 0,0,0 } }, /* UD ! */ { { 0x00B0 }, { 0,0,0 } }, /* Degree */ { { 0x00B1 }, { 0,0,0 } }, /* +- sign */ diff --git a/localedata/tests-mbwc/dat_iswpunct.c b/localedata/tests-mbwc/dat_iswpunct.c index 710395c717..2d17478121 100644 --- a/localedata/tests-mbwc/dat_iswpunct.c +++ b/localedata/tests-mbwc/dat_iswpunct.c @@ -16,7 +16,11 @@ TST_ISW_LOC (PUNCT, punct) = { { { { 0x0080 }, { 0,1,0 } }, /* CTRL */ { { 0x009F }, { 0,1,0 } }, /* CTRL */ +#ifdef SHOJI_IS_RIGHT { { 0x00A0 }, { 0,1,0 } }, /* NB SPACE */ +#else + { { 0x00A0 }, { 0,0,0 } }, /* NB SPACE */ +#endif { { 0x00A1 }, { 0,0,0 } }, /* UD ! */ { { 0x00B0 }, { 0,0,0 } }, /* Degree */ { { 0x00B1 }, { 0,0,0 } }, /* +- sign */ diff --git a/localedata/tests-mbwc/dat_wcswidth.c b/localedata/tests-mbwc/dat_wcswidth.c index fd426ef2c1..fb66d979e5 100644 --- a/localedata/tests-mbwc/dat_wcswidth.c +++ b/localedata/tests-mbwc/dat_wcswidth.c @@ -56,7 +56,11 @@ TST_WCSWIDTH tst_wcswidth_loc [] = { /*expect*/ { 0,1,-1 }, }, { /*input.*/ { { 0x00C1,0x00A0,0x0000 }, 2 }, /* 16 */ +#ifdef SHOJI_IS_RIGHT /*expect*/ { 0,1,-1 }, +#else + /*expect*/ { 0,1,2 }, +#endif }, { /*input.*/ { { 0x00C1,0x00A1,0x0000 }, 2 }, /* 17 */ /*expect*/ { 0,1,2 }, diff --git a/localedata/tst-ctype-de_DE.ISO-8859-1.in b/localedata/tst-ctype-de_DE.ISO-8859-1.in index 61a82d5a86..f71d76cc2a 100644 --- a/localedata/tst-ctype-de_DE.ISO-8859-1.in +++ b/localedata/tst-ctype-de_DE.ISO-8859-1.in @@ -1,5 +1,5 @@ lower  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ - 000000000000000000000000000000000000000000000000 + 000000000000000000000100000000000000000000000000 lower ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ 000000000000000111111111111111111111111011111111 upper  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ @@ -23,11 +23,11 @@ space space ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ 000000000000000000000000000000000000000000000000 print  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ - 011111111111111111111111111111111111111111111111 + 111111111111111111111111111111111111111111111111 print ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ 111111111111111111111111111111111111111111111111 graph  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ - 011111111111111111111111111111111111111111111111 + 111111111111111111111111111111111111111111111111 graph ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ 111111111111111111111111111111111111111111111111 blank  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ @@ -39,7 +39,7 @@ cntrl cntrl ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ 000000000000000000000000000000000000000000000000 punct  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ - 011111111101111111111011110111110000000000000000 + 111111111101111111111011110111110000000000000000 punct ÐÑÒÓÔÕÖ×ØÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ 000000010000000000000000000000000000000100000000 alnum  ¡¢£¤¥¦§¨©ª«¬­®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏ