Presentation is loading. Please wait.

Presentation is loading. Please wait.

日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング

Similar presentations


Presentation on theme: "日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング"— Presentation transcript:

1 日本SAMBAユーザ会 www.samba.gr.jp 2000.4.19

2 日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング
アップル、IBM、NEC、マイクロソフト 文字の正規化問題 複数の符号化 EUC系、 JIS系、SJIS系 規格の混乱など JIS X > 1983での文字のいれかえ JSAによる第3水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicodeとのマッピング

3 各種OSの日本語文字 OS 文字コード名 定義されている文字 MS-DOS SJIS JIS X0208-1983
JIS X0201 KANA/ROMAN MS-WIndows CodePage 932 JIS X に加えてIBM拡張漢字、NEC漢字、NEC選定IBM拡張文字、ユーザ定義文字 Apple Apple83 Apple90 SJISにくわえてユーザ定義文字 JIS X or -1990 Unix系OS 一般にEUC, SJISサポートのものもあり。Localeの有無次第 JIS X , JIS X 0201 KANA/ROMAN JIS X

4 SHIFT-JISコード 文字種 16進コードによる範囲 例 2バイト文字 (JIS X 0208-1990)
1Byte 81 - 9F, E0 - EF (未定義領域含) 阿唖亜娃 2Byte 40 - 7E, 80 - FC 1バイト半角仮名文字 A1 - DF アイウエオ 1バイト ASCII/JISローマ字 21 - 7E ABCDE \/!”#$ ※SJIS文字エンコーディングであり、符号化集合ではないことに注意

5 IBM拡張文字 FA - FC ⅤⅥ、∟、≡㍻ 纊褜鍈銈蓜俉嵓 40 - 7E, 80 - FC F0 - F9 
文字種 16進コードによる 範囲 2バイトIBM非漢字および漢字 1Byte FA - FC ⅤⅥ、∟、≡㍻ 纊褜鍈銈蓜俉嵓 2Byte 40 - 7E, 80 - FC 2バイト ユーザ定義文字 F0 - F9  予約領域 , EB - EF

6 NEC拡張文字 文字種 16進コードによる 範囲 例 F0 - FC  40 - 7E, 80 - FC
2バイト ユーザ定義文字 1Byte F0 - FC  2Byte 40 - 7E, 80 - FC 2バイト NEC拡張文字セット , EB - EC ⅤⅥ、∟、≡㍻ ①② 40ー7E、 80 - FC 2バイト NEC選定IBM拡張文字 ED - EF 纊褜鍈銈蓜俉嵓

7 Windows符号化文字集合 コードページとは? CP932の特徴 Windowsにおいて、各国語をサポートする文字コード符号化セット
SJISを中心に IBM拡張文字、NEC拡張文字セット、NEC選定IBM拡張文字を採用 外字領域 MS定義のUnicodeへのマッピング 他にApple,IBM等の定義もSJISでは存在する

8 Unicodeとsamba Unicode変換 Unicode-CP マッピング ftp.unicode.orgのテーブル利用
漢字コード正規化を公式にはサポートせず Unicode Samba OS ファイル システム Windows NT・2k Unicode →SJIS SJIS LFN EUC, SJIS, JIS, HEX, CAP SJIS Windows95・98 SJIS Windows95・98

9 EUC,JIS JISでは多様なコードが存在 サポートする符号化集合 ISO 2022に則り符号化 ISO-2022-JP [-2]
新JIS, 旧JIS, NEC漢字 ASCII or JIS ROMANと併用 サポートする符号化集合 JIS X , JIS X 0201 KANA, JIS X 0201 ROMAN/ASCII, JIS X ISO 2022に則り符号化

10 Discussion SAMBAのCoding Systemは何がいちばんいいのか 内部コードはなにがいいのか
Windowsの拡張をどこまで、どのようにサポートするのか JIS X 0212補助漢字はどうするのか その他、皆さんの議題 VFAT-JPパッチとの整合性? Li18nux 韓国語、中国語、台湾

11 将来のSAMBA内部コード Windows NT・2k Samba UCS4 Windows95・98 LANMAN, etc
Unicode Samba UCS4 OS ファイル システム Windows NT・2k UCS4 LFN EUC, SJIS, JIS, HEX, CAP Unicode Windows95・98 OS ファイル システム UCS4 UTF8 SJIS UCS4 SJIS LANMAN, etc


Download ppt "日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング"

Similar presentations


Ads by Google