文字列検出ツール "istrings" の使い方

Slides:

Advertisements

Similar presentations

Webmail IMP の日本語化筑波大学研究基盤総合センター木村博美. レジュメ IMP の紹介作業の経過日本語化の作業内容今後.

Advertisements

1 第５回配列. 2 今回の目標マクロ定義の効果を理解する。１次元配列を理解する。２次元配列を理解する。 ☆２ × ２の行列の行列式を求めるプログラムを作成する.

Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエンコーディング ( コード化方式.

Copyright © the University of Tokyo 文字化けの背景を知る. Copyright © the University of Tokyo 課題の概要日本語の文字コードについて理解を深める  MacOS( テキストエディット ) で利用可能なエンコーディング ( コード化方式.

復習配列変数の要素 5は配列の要素数これらの変数をそれぞれ配列の要素と呼ぶこの数字を配列の添え字，またはインデックスと呼ぶ

復習配列変数の要素 5は配列の要素数これらの変数をそれぞれ配列の要素と呼ぶこの数字を配列の添え字，またはインデックスと呼ぶ

Ddによる複製 2004/05/24 伊原秀明(Port139).

TeX で数式を書くための PowerPoint アドイン Ver (2011/06/26) Ver. 0.1　(2007/5/30)

LZ符号化森田岳史.

MS-Word ⇒ XML ２００１/１０マウスをクリックしてください。（カーソルはどこにあっても結構です。）次ページが表示されます。

演算、整数型と浮動小数点型第３回目［４月２７日、Ｈ.１６（‘０４）］本日のメニュー１）前回の課題・宿題２）ファイルサーバの利用

情報処理演習C2 ファイル操作について (2).

情報・知能工学系山本一公プログラミング演習Ⅱ 第4回配列（２）情報・知能工学系山本一公

情報基礎演習B 後半第５回担当岩村 TA 谷本君.

TeX で数式を書くための PowerPoint アドイン Ver. 0.1　(2007/5/30)

2007 Microsoft Office system クイックガイド

情報理工学部情報システム工学科ラシキアゼミ3年 H 岡田貴大

Microsoft Office 2010 クイックガイド～Access編～

伺か with なでしこ発表者：しらたま /05/05　うかべん大阪#3.

システムプログラミング第５回情報工学科篠埜功ヒアドキュメントレポート課題 main関数の引数 usageメッセージ

プログラミング演習Ⅱ 第12回文字列とポインタ（１）

コードの歴史 ASCII(American Standard Code for Information Interchange)  ANSI ISO 646 = 95文字のラテン文字アルファベット＋数字＋特殊文字制御コード：　LF, CR などの表示制御と　　　ACK,DEL などの通信制御　、など.

地理情報システム論第３回コンピュータシステムおけるデータ表現(1)

第２回：Javaの変数と型の宣言プログラミングII 2007年10月2日.

第2章ソフトウェアの基礎知識電子制御設計製図Ⅰ 　　　2010年5月11日　Ⅲ限目.

第2章ソフトウェアの基礎知識.

文字化けの背景を知る.

担当：青木義満情報工学科　3年生対象　専門科目システムプログラミングシステムプログラミングプロセス間通信（パイプ）担当：青木義満

MSBuild 色々出来るよ 2011/04/02 おだ.

マスタリングバベル Boost.勉強会 #2 ( ).

13 Microsoft Word(4) 13.1数式の入力 Microsoft 数式の起動

初年次セミナー第２回　文字の出力.

Microsoft Office 2010 クイックガイド～応用編～

川口真司松下誠井上克郎大阪大学大学院情報科学研究科

文字化けの背景を知る.

文字化けの背景を知る.

情報工学科　3年生対象　専門科目システムプログラミング第５回、第６回ヒアドキュメントレポート課題情報工学科篠埜　功.

芝野耕司 ISO/IEC JTC1/SC2 (Coded Character Sets)委員長東京外国語大学

定兼邦彦今井浩東京大学理学系研究科情報科学専攻

プログラミング応用 printfと変数.

独習ＸＭＬ第２章ＸＭＬ文書の構成要素 2.1 ＸＭＬの文字と文字列 2.2 コメント

文字の表現.

アルゴリズムとデータ構造補足資料5-1 「メモリとポインタ」

第4回コンピューティングの要素と構成平成22年5月10日(月)

文字エンコーディング 2010年7月.

第2章ソフトウェアの基礎知識電子制御設計製図Ⅰ 　　　2010年5月19日　Ⅱ限目.

プログラミング基礎B 文字列の扱い.

情報コミュニケーション入門ｂ第１１回 Web入門（２）

B演習(言語処理系演習)第2回田浦.

情報コミュニケーション入門ｅ第１２回 Part1 Web入門（２）

プログラミング演習I 2003年7月2日（第11回）木村巌.

地理情報システム論（総）／国民経済計算論（商）

短い部分文字列のミスマッチトレランスを高速計算するアルゴリズム

TeX で数式を書くための PowerPoint アドイン Ver. 0.1　(2007/5/30)

日本語独特のL10N問題とは? 各社仕様の拡張文字複数の符号化規格の混乱など Unicodeとのマッピング

情報コミュニケーション入門ｅ第１２回 Part1 Web入門（２）

TeX で数式を書くための PowerPoint アドイン Ver. 0.1　(2007/5/30)

Microsoft Office 2010 クイックガイド～応用編～

情報処理Ⅱ ２００６年１１月２４日（金）.

情報処理Ⅱ 第７回 2004年11月16日（火）.

Make の使い方.

高度プログラミング演習（11）.

情報処理Ⅱ ２００７年１２月３日（月）その１.

オペレーティングシステム作成 T21R003 荏原寛太.

CADシステムとソフトウェア電子制御設計製図Ⅰ 　　　２００9年4月28日　Ⅲ限目.

情報処理Ⅱ ２００５年１１月２５日（金）.

情報処理概論Ⅰ 2007 第11回 2007/7/4 情報処理概論Ⅰ 第11回.

第4回　配列.

第５回　配列.

第３回Ｂａｓｈゼミ for文処理について発表者直江　宗紀.

Presentation transcript:

文字列検出ツール "istrings" の使い方 2005年7月9日はせがわようすけ hasegawa openmya.hacker.jp @

Forensicでの文字列検出 dd で取得したディスクのイメージページファイル(メモリの残片) 電子メールの残骸：　　：文字列の検出には strings コマンドを使う。ファイル内で連続するASCII文字を表示する。

stringsコマンド 4文字以上のASCII 文字の連続を検出ファイルに含まれる文字列を検出するツール。 00 01 02 03 04 05 06 07 08-09 0A 0B 0C 0D 0E 0F 0123456789ABCDEF 1E 00 00 00 0B 00 00 00 4E 6F 72 6D 61 6C 2E 64 ........Normal.d 6F 74 00 FA 1E 00 00 00 13 00 00 00 20 20 20 20 ot.......... 20 20 20 20 20 20 20 20 20 20 20 20 20 20 00 00 C:\>strings 文書1.doc bjbj 　： 0 2 3 o0[0L0 Normal.dot Microsoft Word 9.0 4文字以上のASCII 文字の連続を検出

stringsコマンドの限界 jstrings 開発 ASCIIにしか対応していない日本語の検出ができない一部のstringsではUnicode可だが、これもASCII文字の範囲のみ。日本語対応のstringsが欲しいよぅ。 jstrings 開発

日本語対応の strings istrings 開発 jstrings Shift_JIS、EUC-JP、ISO-2022-JP に対応文字コードに関連した部分を全てハードコーディングしているため拡張性がない Unicodeにちゃんと対応して欲しいよぅ。 istrings 開発

文字コードの基本文字集合文字をたくさん集めたもの符号化文字集合集めた文字に番号を順に振ったものエンコーディングメモリやディスク上での文字の表現方法

日本語対応の strings istrings 日本語以外にも多くの文字コードに対応した strings コマンドエンコーディングの基本部分のみハードコーディング文字集合は外部ファイルで定義拡張性が高いあとから文字コードの追加が可能

基本的な使い方 5文字以上の文字列を検出 UTF-16の文字列を検出 -nオプション: 文字列とみなす文字数を指定 C:\>istrings -n 5 -iUTF-16 Book1.xls 5文字以上の文字列を検出 UTF-16の文字列を検出 -nオプション: 文字列とみなす文字数を指定 -iオプション: 文字コードを指定

2 4 3 4 設定ファイル指定されたエンコーディングに関する情報を取得するため、起動時に設定ファイルを読み込む。設定ファイル C:\>istrings 2 3 4 設定ファイルマッピングファイル

設定ファイルの場所以下の順に設定ファイルを探し、最初に見つかったものを読み込む。 -e オプションにより指定されたファイル環境変数 ISTRINGS_INI により指定されたファイルコンパイル時に決定され、EXEファイルに埋め込まれたファイル

設定ファイルの内容設定ファイルは、エンコーディングごとに以下のようなセクションを構成している。エンコーディング名 [Shift_JIS] alias=CP932 alias=Windows-31J system=DBCS mapfile0=C:\map\CP932-1.map mapfile1=C:\map\CP932-2.map : [エンコーディング名] 別名エンコーディング種別マッピングファイル

設定ファイルの内容エンコーディング名、別名は - i オプションで指定される名称 C:\>istrings -iUS-ASCII file.xls C:\>istrings -iASCII file.xls [US-ASCII] alias=ASCII system=DBCS mapfile0=ascii.map :

設定ファイルの内容エンコーディングの種別は、以下のいずれか DBCS 一般的な1バイトまたは2バイトの文字コード Shift_JIS、ASCII、ISO-8859-* など UTF-8 UTF-16LE UTF-16BE [UTF-16LE] alias=UTF-16 system=UTF-16LE mapfile0=unicode.map :

マッピングファイル指定されたエンコーディングにおいて有効な文字の範囲を定義したファイル１文字のバイト数 bytecount=1 09 文字として有効な値

その他のオプション -f : ファイル名を表示する -p : 文字列の見つかった場所を表示する -c : 文字コードを表示する -t : テキストモードで出力する C:\>istrings -f -p -c -t file.dat file.dat[0000004d](ASCII): This is a pen. file.dat[000000bf](ASCII): Delicias Wine. file.dat[000001d0](ASCII): Flesh tomato file.dat[000001f7](ASCII): PPT :

出力結果は、コマンドラインで指定された文字コードで出力される。 iconv や wiconv のような文字コードコンバータを用いると便利 C:\>istrings -t -iUTF-16 file.dat | wiconv -fUTF-16 -t932 | more

応用 - base64の検出 bytecount=1 2B マッピングファイルを用意することにより、base64の残骸を検出できる。 2F 30-39 3D 41-5a 61-7a マッピングファイルを用意することにより、base64の残骸を検出できる。･･･ + ･･･ / ･･･ 0-9 ･･･ = ･･･ A-Z ･･･ a-z C:\>istrings -t -ibase64 file.eml : filename= attached grGC6oLNIGJhc2U2NCCCxYNHg5ODUoFbg2iCs4LqgumDdI gsggb3Blbm15YSBNTCCC5oLrgrWCrYLLgUINCg0KaHR0cD eXdvcmQvb3Blbm15YU1MDQoNCg==

課題 ISO-2022系のエンコーディングに対応できていない ISO-2022-JP、EUC-JP には jstrings が必要 UnicodeはBMP内の文字にしか対応していないコードが汚い、未整理

Q&A ご質問をどうぞ!! @ http://openmya.hacker.jp/hasegawa/ hasegawa openmya.hacker.jp @