日本SAMBAユーザ会 www.samba.gr.jp 2000.4.19
日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング アップル、IBM、NEC、マイクロソフト 文字の正規化問題 複数の符号化 EUC系、 JIS系、SJIS系 規格の混乱など JIS X 0208-1978 -> 1983での文字のいれかえ JSAによる第3水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicodeとのマッピング
各種OSの日本語文字 OS 文字コード名 定義されている文字 MS-DOS SJIS JIS X0208-1983 JIS X0201 KANA/ROMAN MS-WIndows CodePage 932 JIS X0208-1990に加えてIBM拡張漢字、NEC漢字、NEC選定IBM拡張文字、ユーザ定義文字 Apple Apple83 Apple90 SJISにくわえてユーザ定義文字 JIS X0208-1983 or -1990 Unix系OS 一般にEUC, SJISサポートのものもあり。Localeの有無次第 JIS X0208-1990, JIS X 0201 KANA/ROMAN JIS X 0212-1990
SHIFT-JISコード 文字種 16進コードによる範囲 例 2バイト文字 (JIS X 0208-1990) 1Byte 81 - 9F, E0 - EF (未定義領域含) 阿唖亜娃 2Byte 40 - 7E, 80 - FC 1バイト半角仮名文字 A1 - DF アイウエオ 1バイト ASCII/JISローマ字 21 - 7E ABCDE \/!”#$ ※SJIS文字エンコーディングであり、符号化集合ではないことに注意
IBM拡張文字 FA - FC ⅤⅥ、∟、≡㍻ 纊褜鍈銈蓜俉嵓 40 - 7E, 80 - FC F0 - F9 文字種 16進コードによる 範囲 例 2バイトIBM非漢字および漢字 1Byte FA - FC ⅤⅥ、∟、≡㍻ 纊褜鍈銈蓜俉嵓 2Byte 40 - 7E, 80 - FC 2バイト ユーザ定義文字 F0 - F9 予約領域 85 - 87, EB - EF
NEC拡張文字 文字種 16進コードによる 範囲 例 F0 - FC 40 - 7E, 80 - FC 2バイト ユーザ定義文字 1Byte F0 - FC 2Byte 40 - 7E, 80 - FC 2バイト NEC拡張文字セット 85 - 87, EB - EC ⅤⅥ、∟、≡㍻ ①② 40ー7E、 80 - FC 2バイト NEC選定IBM拡張文字 ED - EF 纊褜鍈銈蓜俉嵓
Windows符号化文字集合 コードページとは? CP932の特徴 Windowsにおいて、各国語をサポートする文字コード符号化セット SJISを中心に IBM拡張文字、NEC拡張文字セット、NEC選定IBM拡張文字を採用 外字領域 MS定義のUnicodeへのマッピング 他にApple,IBM等の定義もSJISでは存在する
Unicodeとsamba Unicode変換 Unicode-CP マッピング ftp.unicode.orgのテーブル利用 漢字コード正規化を公式にはサポートせず Unicode Samba OS ファイル システム Windows NT・2k Unicode →SJIS SJIS → LFN EUC, SJIS, JIS, HEX, CAP SJIS Windows95・98 SJIS Windows95・98
EUC,JIS JISでは多様なコードが存在 サポートする符号化集合 ISO 2022に則り符号化 ISO-2022-JP [-2] 新JIS, 旧JIS, NEC漢字 ASCII or JIS ROMANと併用 サポートする符号化集合 JIS X 0208-1990, JIS X 0201 KANA, JIS X 0201 ROMAN/ASCII, JIS X 0212-1990 ISO 2022に則り符号化
Discussion SAMBAのCoding Systemは何がいちばんいいのか 内部コードはなにがいいのか Windowsの拡張をどこまで、どのようにサポートするのか JIS X 0212補助漢字はどうするのか その他、皆さんの議題 VFAT-JPパッチとの整合性? Li18nux 韓国語、中国語、台湾
将来のSAMBA内部コード Windows NT・2k Samba UCS4 Windows95・98 LANMAN, etc Unicode Samba UCS4 OS ファイル システム Windows NT・2k UCS4 → LFN EUC, SJIS, JIS, HEX, CAP Unicode Windows95・98 OS ファイル システム UCS4 UTF8 SJIS → UCS4 SJIS LANMAN, etc