日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング

Slides:



Advertisements
Similar presentations
7章 情報の表現と基礎理論. 数の表現(書き方) 「数」と「数の書き方」をわけて考える 「数の書き方」と,「数そのものの性質」は別のもの 例:13 は素数・・・”13”という書き方とは無関係 ここでは書き方(表現方法)について考える 567.
Advertisements

Webmail IMP の日本語化 筑波大学 研究基盤総合センター 木村 博美. レジュメ IMP の紹介 作業の経過 日本語化の作業内容 今後.
平成 10 年 5 月 25 日 Windows NT 漢字処理技術協議会 WG2 (コード & キャラクターセット)リーダー NEC オフィスシステム 伊藤 英俊 漢字コードについ て.
2.5 プログラムの構成要素 (1)文字セット ① ASCII ( American Standard Code for Interchange ) JIS コードと同じ ② EBCDIC ( Extended Binary Coded Decimal for Information Code ) 1.
基本編の用語説明 その2 エディタと日本語入力 エディタ  エディタ (editor) :文書を作成、編集する アプリケーションソフトウェア  教育用計算機システムのエディタは、 テキストエディット テキストエディット  基本的な編集方法はここここ  カーソル:文字が入力される位置を表している目印.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要 日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエ ンコーディング ( コード化方式.
1B コンピュータとビット列データ.
基本情報技術概論(第2回) 埼玉大学 理工学研究科 堀山 貴史
「コンピュータと情報システム」 03章 ソフトウェア
2003年9月19日 株式会社リコー ソリューション計画センター 宮本 崇夫
日本語Windowsとモバイル機器に強い fs_moodleパッケージの紹介
エンコーディングと セキュリティ 徹底調査 - XSS Allstars from Japan - Masato Kinugawa.
GTK+/GLibのファイル名エンコーディング
『基礎理論』 (C)Copyright, Toshiomi KOBAYASHI,
富山大学 公開講座 2008 「QRコードを作ろう!」 ~ QRコードを作ろう! ~.
文字列検出ツール "istrings" の使い方
正規表現ライブラリ 一般的なもの GNU regex GNU rx pcre Henry Spencer’s regex.
Webアプリケーション開発の 基本的なポイント
「情報」 (中村) オリジナル PPT (2010/05/07) 1 1.
物理実験 I 情報実験第9回 2004/12/10 小西 丈予 2003/12/12 中神 雄一
RTLinuxを用いた磁気浮上システムの制御に関する研究
1.コンピュータと情報処理 p.20 第1章第1節 3.ソフトウェア ソフトウェア 基本ソフトウェア
2004, Spring term, Yutaka Yasuda
鬼生田浩一 WindowsNTの問題点 UNIX主体のネットワークへのNT導入の ポイント 鬼生田浩一
須賀 友也 神戸大学 理学研究科 地球惑星科学専攻 M1
JEPA「文字図形共有基盤」調査検討分科会 黒田信二郎 2011年11月17日
文字情報基盤 IPAmj 行政機関で使う文字の問題は これで解決 参考6
文字のディジタル化 Copyright(C)2009 Tsutomu Ohara All rights reserved.
音声と図解 初めてのパソコン 2013年度公開講座 4月27日, 5月11日 跡見学園女子大学文学部准教授 福田 博同 初めてのパソコン
マイクロソフトの産業別標準化活動の取り組み
コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字 アルファベット+数字+特殊文字 制御コード: LF, CR などの表示制御と   ACK,DEL などの通信制御 、など.
EGSに対応した粒子軌跡と 計算体系の3次元表示ソフト - CGVIEW -
はじめに Linuxでの科学文書作成 Windowsでの科学文書作成
第2章 ソフトウェアの基礎知識 電子制御設計製図Ⅰ    2010年5月11日 Ⅲ限目.
コンピュータ基礎実習上級 #11画像ファイルと文字のフォーマット
第2章 ソフトウェアの基礎知識.
心理学情報処理法Ⅰ コンピュータにおけるデータ表現 マルチメディアとコンピュータ.
軌跡とジオメトリー表示プログラム CGVIEW(Ver2.2)の改良
文字化けの背景を知る.
Samba日本語版の設定と運用のノウハウ 概要編
プログラミング言語論 プログラミング言語論 プログラミング言語論 演習1 解答と解説 演習1解答と解説 1 1.
図書館システムの歴史と 日本語処理を考える
マスタリング バベル Boost.勉強会 #2 ( ).
SWAT I18N 概要 付け足した機能(実行時に言語の切り替え-i18nの範囲で) 問題点(細かい技術的問題、根本的問題) 今後
フォームからリクエストを受け取る <2/6>
Outlook メール文字化けの原因と対策
報告4:蔵書評価における文字コード問題について
784 基礎知識2.
文字化けの背景を知る.
文字化けの背景を知る.
図書館システムの歴史と日本語処理 紅林 徹也 ~ 大規模目録データベース ~ 株式会社 日立製作所 公共システム事業部
芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長 東京外国語大学
図書館システムと日本語との 格闘の歴史(過去、現在、未来) -CALISを中心にして-
リコー「LIMEDIO」の紹介 LIMEDIOにおけるZ39.50の適用事例
文字コード 情報処理3 今井孝明.
独習XML 第2章 XML文書の構成要素 2.1 XMLの文字と文字列 2.2 コメント
KAGEシステムによる 漢字フォント制作支援
文字の表現.
第4回 コンピューティングの要素と構成 平成22年5月10日(月)
パソコンのしくみ ハードウェア OS(Operating System) アプリケーション NEC DOS
EGSに対応した粒子軌跡と 計算体系の3次元表示ソフト - CGVIEW -
文字エンコーディング 2010年7月.
第2章 ソフトウェアの基礎知識 電子制御設計製図Ⅰ    2010年5月19日 Ⅱ限目.
ありうべき日本語処理とは by 中 博俊.
1E17M053-9 奈良皐佑 1E17M070-7 師尾直希 1E17M078-6 渡邊惇
基本情報技術概論(第2回) 埼玉大学 理工学研究科 堀山 貴史
PHP と SQL (MySQL) の連携 日本語のデータを扱う
オペレーティングシステム 作成 T21R003 荏原 寛太.
CADシステムとソフトウェア 電子制御設計製図Ⅰ    2009年4月28日 Ⅲ限目.
Presentation transcript:

日本SAMBAユーザ会 www.samba.gr.jp 2000.4.19

日本語独特のL10N問題とは? 各社仕様の拡張文字 複数の符号化 規格の混乱など Unicodeとのマッピング アップル、IBM、NEC、マイクロソフト 文字の正規化問題 複数の符号化 EUC系、 JIS系、SJIS系 規格の混乱など JIS X 0208-1978 -> 1983での文字のいれかえ JSAによる第3水準、第4水準の策定の問題 広くフォントの存在しない JIS X 0212 補助漢字 Unicodeとのマッピング

各種OSの日本語文字 OS 文字コード名 定義されている文字 MS-DOS SJIS JIS X0208-1983 JIS X0201 KANA/ROMAN MS-WIndows CodePage 932 JIS X0208-1990に加えてIBM拡張漢字、NEC漢字、NEC選定IBM拡張文字、ユーザ定義文字 Apple Apple83 Apple90 SJISにくわえてユーザ定義文字 JIS X0208-1983 or -1990 Unix系OS 一般にEUC, SJISサポートのものもあり。Localeの有無次第 JIS X0208-1990, JIS X 0201 KANA/ROMAN JIS X 0212-1990

SHIFT-JISコード 文字種 16進コードによる範囲 例 2バイト文字 (JIS X 0208-1990) 1Byte 81 - 9F, E0 - EF (未定義領域含) 阿唖亜娃 2Byte 40 - 7E, 80 - FC 1バイト半角仮名文字 A1 - DF アイウエオ 1バイト ASCII/JISローマ字 21 - 7E ABCDE \/!”#$ ※SJIS文字エンコーディングであり、符号化集合ではないことに注意

IBM拡張文字 FA - FC ⅤⅥ、∟、≡㍻ 纊褜鍈銈蓜俉嵓 40 - 7E, 80 - FC F0 - F9  文字種 16進コードによる 範囲 例 2バイトIBM非漢字および漢字 1Byte FA - FC ⅤⅥ、∟、≡㍻ 纊褜鍈銈蓜俉嵓 2Byte 40 - 7E, 80 - FC 2バイト ユーザ定義文字 F0 - F9  予約領域 85 - 87, EB - EF

NEC拡張文字 文字種 16進コードによる 範囲 例 F0 - FC  40 - 7E, 80 - FC 2バイト ユーザ定義文字 1Byte F0 - FC  2Byte 40 - 7E, 80 - FC 2バイト NEC拡張文字セット 85 - 87, EB - EC ⅤⅥ、∟、≡㍻ ①② 40ー7E、 80 - FC 2バイト NEC選定IBM拡張文字 ED - EF 纊褜鍈銈蓜俉嵓

Windows符号化文字集合 コードページとは? CP932の特徴 Windowsにおいて、各国語をサポートする文字コード符号化セット SJISを中心に IBM拡張文字、NEC拡張文字セット、NEC選定IBM拡張文字を採用 外字領域 MS定義のUnicodeへのマッピング 他にApple,IBM等の定義もSJISでは存在する

Unicodeとsamba Unicode変換 Unicode-CP マッピング ftp.unicode.orgのテーブル利用 漢字コード正規化を公式にはサポートせず Unicode Samba OS ファイル システム Windows NT・2k Unicode →SJIS SJIS → LFN EUC, SJIS, JIS, HEX, CAP SJIS Windows95・98 SJIS Windows95・98

EUC,JIS JISでは多様なコードが存在 サポートする符号化集合 ISO 2022に則り符号化 ISO-2022-JP [-2] 新JIS, 旧JIS, NEC漢字 ASCII or JIS ROMANと併用 サポートする符号化集合 JIS X 0208-1990, JIS X 0201 KANA, JIS X 0201 ROMAN/ASCII, JIS X 0212-1990 ISO 2022に則り符号化

Discussion SAMBAのCoding Systemは何がいちばんいいのか 内部コードはなにがいいのか Windowsの拡張をどこまで、どのようにサポートするのか JIS X 0212補助漢字はどうするのか その他、皆さんの議題 VFAT-JPパッチとの整合性? Li18nux 韓国語、中国語、台湾

将来のSAMBA内部コード Windows NT・2k Samba UCS4 Windows95・98 LANMAN, etc Unicode Samba UCS4 OS ファイル システム Windows NT・2k UCS4 → LFN EUC, SJIS, JIS, HEX, CAP Unicode Windows95・98 OS ファイル システム UCS4 UTF8 SJIS → UCS4 SJIS LANMAN, etc