Presentation is loading. Please wait.

Presentation is loading. Please wait.

SlothLib.Web.

Similar presentations


Presentation on theme: "SlothLib.Web."— Presentation transcript:

1 SlothLib.Web

2 2つのライブラリ SlothLib.Web.Search SlothLib.Web.WebLoader
Yahoo!・Google・LiveSearch・YouTube・Flickr SlothLib.Web.WebLoader HTTPによるページを取得するためのライブラリ マルチスレッドでの取得も提供

3 SlothLib.Web.Searchにできること
各種検索エンジンから検索結果を取得する Yahoo! ・LiveSearch・FlickrなどのAPIを用いる タイトル、スニペッド、URL ブログ検索であれば、記入日時を取得できる ビデオ検索であれば、ビデオの長さを取得できる それぞれの検索エンジンの検索結果固有の情報も取得 できる YahooWebSearchであれば、ページのMIMEタイプなど

4 SlothLib.Webの構造 IBlogSearch GooBlogSearch FlickrSearch IImageSearch
ISearch IWebSearch IVideoSearch IImageSearch IBlogSearch LiveWebSearch YahooJpWebSearch GoogleSOAPSearchAPI FlickrSearch YahooJpImageSearch YahooJpVideoSearch YouTubeSearch GooBlogSearch OshieteGoo CachedSearch インターフェース

5 YahooWeb検索 YahooJpWebSearch YahooJpWebResult YahooJpWebElement
検索を行うためのクラス YahooJpWebResult YahooWeb検索が返す検索結果全体 YahooJpWebElement YahooWeb検索結果のそれぞれの要素(ページ)

6 YahooJpWebSearch 検索を行うためのクラス コンストラクタ メソッド
YahooJpWebSearch (string applicationID) アプリケーションIDを指定:”slothlib” メソッド DoSearch(string query, int maxNumber) 検索を行うためのメソッド 返り値: YahooJpWebSearchResult query: 検索クエリ maxNumber: 返却結果の数

7 YahooJpWebResult YahooWeb検索が返す検索結果全体 プロパティ
YahooJpWebElement[] ResultElements {get} 検索結果要素の配列 string Query {get} 検索に使われたクエリ long TotalNumber 検索総件数

8 YahooJpWebElement YahooWeb検索結果のそれぞれの要素 プロパティ string Title : ページのタイトル
string Summary: ページの要約 string Url :  ページのURL ClickUrl, MimeType …

9 SlothLib.Web.WebLoader
HTTPを利用してウェブページをダウンロードできる 保存先(デフォルト) Tempフォルダ、ファイル名はハッシュコード シングルスレッドとマルチスレッドの二種類 シングルスレッド WebGetクラス URLの内容を取得するクラス WebGetResultクラス 取得したWebページの結果を保存するクラス マルチスレッド MultiWebGetクラス, MultiWebGetResultsクラス

10 MultiWebGetクラス メソッド マルチスレッドを用いて複数URLの内容を取得するクラス DoFetch・・・実行する 引数 返り値
urlList:string[]型      データを取得するURLのリスト allowContentTypes:string[]型   取得するURLのCotentTypeのリスト excludeContentTypes:string[]型 取得しないURLのCotentTypeのリスト 返り値 MultiWebGetResults

11 MultiWebGetResultsクラス
複数URLの取得結果を格納するクラス プロパティ WebGetResult[] ResultElements URLの内容取得結果の配列 int Count 取得したURLの個数

12 WebGetResultクラス 取得したWebページの結果を保存するクラス プロパティ string URL
string LocalFilePath 保存したファイルの場所 HttpHeader Header ファイルのヘッダー string Response レスポンス

13 SlothLib.IO

14 2つのライブラリ SlothLib.IO SlothLib.Text 保存したファイルを呼び出すためのライブラリ
xdoc2txtを利用することによりファイルを読み込む *html, *.rtf, *.doc, *.xls, *.ppt, *.jtd/jtt, *.pdf, *.txt … SlothLib.Text 日本語文字コード判別

15 SlothLib.IOでできること 様々な形式の文書の内容を読み込む xdoc2txtを内部で利用 MultiReaderクラス
Textファイル用:TextReaderクラス HTML用:Xdoc2txtHtmlReaderクラス その他:Xdoc2txtReaderクラス 読み込むことのできる形式(Xdoc2txt :対応ファイル) テキスト・HTML・・・*.txt, *.htm, *.html, *.mht Office・・・*.doc, *.xls, *.ppt (ver5.0~ 2000) 一太郎・・・*.jaw/jtw, *.jbw/juw, ・・・(ver5~ver12) PDF・・・ *.pdf OASYS, 新松, Lotus123, Windows3.1 Write

16 MultiReaderクラス 様々な形式の文書の内容のみを読み込む コンストラクタ メソッド
MultiReader(string xdoc2txtExePath) xdoc2txtExePath: xdoc2txtの実行ファイルのパス メソッド string Read(string filePath) filePath: 取得したいファイルのパス 返り値: ファイルの内容 様々なファイルを読み込むことができる。 拡張子で判断する

17 TextReaderクラス テキストファイルの内容を取得する 拡張子が何でも読もうとする
SlothLib.Textのクラスを用いて文字コードを自動判断 SlothLib.Text.TxtEncConverter オープンソースのTxtEncを利用する文字コード判別用クラス メソッド string Read(string filePath) filePath: 取得したいファイルのパス 返り値: ファイルの内容


Download ppt "SlothLib.Web."

Similar presentations


Ads by Google