Download presentation
Presentation is loading. Please wait.
1
SlothLib.Web
2
2つのライブラリ SlothLib.Web.Search SlothLib.Web.WebLoader
Yahoo!・Google・LiveSearch・YouTube・Flickr SlothLib.Web.WebLoader HTTPによるページを取得するためのライブラリ マルチスレッドでの取得も提供
3
SlothLib.Web.Searchにできること
各種検索エンジンから検索結果を取得する Yahoo! ・LiveSearch・FlickrなどのAPIを用いる タイトル、スニペッド、URL ブログ検索であれば、記入日時を取得できる ビデオ検索であれば、ビデオの長さを取得できる それぞれの検索エンジンの検索結果固有の情報も取得 できる YahooWebSearchであれば、ページのMIMEタイプなど
4
SlothLib.Webの構造 IBlogSearch GooBlogSearch FlickrSearch IImageSearch
ISearch IWebSearch IVideoSearch IImageSearch IBlogSearch LiveWebSearch YahooJpWebSearch GoogleSOAPSearchAPI FlickrSearch YahooJpImageSearch YahooJpVideoSearch YouTubeSearch GooBlogSearch OshieteGoo CachedSearch インターフェース
5
YahooWeb検索 YahooJpWebSearch YahooJpWebResult YahooJpWebElement
検索を行うためのクラス YahooJpWebResult YahooWeb検索が返す検索結果全体 YahooJpWebElement YahooWeb検索結果のそれぞれの要素(ページ)
6
YahooJpWebSearch 検索を行うためのクラス コンストラクタ メソッド
YahooJpWebSearch (string applicationID) アプリケーションIDを指定:”slothlib” メソッド DoSearch(string query, int maxNumber) 検索を行うためのメソッド 返り値: YahooJpWebSearchResult query: 検索クエリ maxNumber: 返却結果の数
7
YahooJpWebResult YahooWeb検索が返す検索結果全体 プロパティ
YahooJpWebElement[] ResultElements {get} 検索結果要素の配列 string Query {get} 検索に使われたクエリ long TotalNumber 検索総件数
8
YahooJpWebElement YahooWeb検索結果のそれぞれの要素 プロパティ string Title : ページのタイトル
string Summary: ページの要約 string Url : ページのURL ClickUrl, MimeType …
9
SlothLib.Web.WebLoader
HTTPを利用してウェブページをダウンロードできる 保存先(デフォルト) Tempフォルダ、ファイル名はハッシュコード シングルスレッドとマルチスレッドの二種類 シングルスレッド WebGetクラス URLの内容を取得するクラス WebGetResultクラス 取得したWebページの結果を保存するクラス マルチスレッド MultiWebGetクラス, MultiWebGetResultsクラス
10
MultiWebGetクラス メソッド マルチスレッドを用いて複数URLの内容を取得するクラス DoFetch・・・実行する 引数 返り値
urlList:string[]型 データを取得するURLのリスト allowContentTypes:string[]型 取得するURLのCotentTypeのリスト excludeContentTypes:string[]型 取得しないURLのCotentTypeのリスト 返り値 MultiWebGetResults
11
MultiWebGetResultsクラス
複数URLの取得結果を格納するクラス プロパティ WebGetResult[] ResultElements URLの内容取得結果の配列 int Count 取得したURLの個数
12
WebGetResultクラス 取得したWebページの結果を保存するクラス プロパティ string URL
string LocalFilePath 保存したファイルの場所 HttpHeader Header ファイルのヘッダー string Response レスポンス
13
SlothLib.IO
14
2つのライブラリ SlothLib.IO SlothLib.Text 保存したファイルを呼び出すためのライブラリ
xdoc2txtを利用することによりファイルを読み込む *html, *.rtf, *.doc, *.xls, *.ppt, *.jtd/jtt, *.pdf, *.txt … SlothLib.Text 日本語文字コード判別
15
SlothLib.IOでできること 様々な形式の文書の内容を読み込む xdoc2txtを内部で利用 MultiReaderクラス
Textファイル用:TextReaderクラス HTML用:Xdoc2txtHtmlReaderクラス その他:Xdoc2txtReaderクラス 読み込むことのできる形式(Xdoc2txt :対応ファイル) テキスト・HTML・・・*.txt, *.htm, *.html, *.mht Office・・・*.doc, *.xls, *.ppt (ver5.0~ 2000) 一太郎・・・*.jaw/jtw, *.jbw/juw, ・・・(ver5~ver12) PDF・・・ *.pdf OASYS, 新松, Lotus123, Windows3.1 Write
16
MultiReaderクラス 様々な形式の文書の内容のみを読み込む コンストラクタ メソッド
MultiReader(string xdoc2txtExePath) xdoc2txtExePath: xdoc2txtの実行ファイルのパス メソッド string Read(string filePath) filePath: 取得したいファイルのパス 返り値: ファイルの内容 様々なファイルを読み込むことができる。 拡張子で判断する
17
TextReaderクラス テキストファイルの内容を取得する 拡張子が何でも読もうとする
SlothLib.Textのクラスを用いて文字コードを自動判断 SlothLib.Text.TxtEncConverter オープンソースのTxtEncを利用する文字コード判別用クラス メソッド string Read(string filePath) filePath: 取得したいファイルのパス 返り値: ファイルの内容
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.