SlothLib.Web
2つのライブラリ SlothLib.Web.Search SlothLib.Web.WebLoader Yahoo!・Google・LiveSearch・YouTube・Flickr SlothLib.Web.WebLoader HTTPによるページを取得するためのライブラリ マルチスレッドでの取得も提供
SlothLib.Web.Searchにできること 各種検索エンジンから検索結果を取得する Yahoo! ・LiveSearch・FlickrなどのAPIを用いる タイトル、スニペッド、URL ブログ検索であれば、記入日時を取得できる ビデオ検索であれば、ビデオの長さを取得できる それぞれの検索エンジンの検索結果固有の情報も取得 できる YahooWebSearchであれば、ページのMIMEタイプなど
SlothLib.Webの構造 IBlogSearch GooBlogSearch FlickrSearch IImageSearch ISearch IWebSearch IVideoSearch IImageSearch IBlogSearch LiveWebSearch YahooJpWebSearch GoogleSOAPSearchAPI FlickrSearch YahooJpImageSearch YahooJpVideoSearch YouTubeSearch GooBlogSearch OshieteGoo CachedSearch インターフェース
YahooWeb検索 YahooJpWebSearch YahooJpWebResult YahooJpWebElement 検索を行うためのクラス YahooJpWebResult YahooWeb検索が返す検索結果全体 YahooJpWebElement YahooWeb検索結果のそれぞれの要素(ページ)
YahooJpWebSearch 検索を行うためのクラス コンストラクタ メソッド YahooJpWebSearch (string applicationID) アプリケーションIDを指定:”slothlib” メソッド DoSearch(string query, int maxNumber) 検索を行うためのメソッド 返り値: YahooJpWebSearchResult query: 検索クエリ maxNumber: 返却結果の数
YahooJpWebResult YahooWeb検索が返す検索結果全体 プロパティ YahooJpWebElement[] ResultElements {get} 検索結果要素の配列 string Query {get} 検索に使われたクエリ long TotalNumber 検索総件数
YahooJpWebElement YahooWeb検索結果のそれぞれの要素 プロパティ string Title : ページのタイトル string Summary: ページの要約 string Url : ページのURL ClickUrl, MimeType …
SlothLib.Web.WebLoader HTTPを利用してウェブページをダウンロードできる 保存先(デフォルト) Tempフォルダ、ファイル名はハッシュコード シングルスレッドとマルチスレッドの二種類 シングルスレッド WebGetクラス URLの内容を取得するクラス WebGetResultクラス 取得したWebページの結果を保存するクラス マルチスレッド MultiWebGetクラス, MultiWebGetResultsクラス
MultiWebGetクラス メソッド マルチスレッドを用いて複数URLの内容を取得するクラス DoFetch・・・実行する 引数 返り値 urlList:string[]型 データを取得するURLのリスト allowContentTypes:string[]型 取得するURLのCotentTypeのリスト excludeContentTypes:string[]型 取得しないURLのCotentTypeのリスト 返り値 MultiWebGetResults
MultiWebGetResultsクラス 複数URLの取得結果を格納するクラス プロパティ WebGetResult[] ResultElements URLの内容取得結果の配列 int Count 取得したURLの個数
WebGetResultクラス 取得したWebページの結果を保存するクラス プロパティ string URL string LocalFilePath 保存したファイルの場所 HttpHeader Header ファイルのヘッダー string Response レスポンス
SlothLib.IO
2つのライブラリ SlothLib.IO SlothLib.Text 保存したファイルを呼び出すためのライブラリ xdoc2txtを利用することによりファイルを読み込む *html, *.rtf, *.doc, *.xls, *.ppt, *.jtd/jtt, *.pdf, *.txt … SlothLib.Text 日本語文字コード判別
SlothLib.IOでできること 様々な形式の文書の内容を読み込む xdoc2txtを内部で利用 MultiReaderクラス Textファイル用:TextReaderクラス HTML用:Xdoc2txtHtmlReaderクラス その他:Xdoc2txtReaderクラス 読み込むことのできる形式(Xdoc2txt :対応ファイル) テキスト・HTML・・・*.txt, *.htm, *.html, *.mht Office・・・*.doc, *.xls, *.ppt (ver5.0~ 2000) 一太郎・・・*.jaw/jtw, *.jbw/juw, ・・・(ver5~ver12) PDF・・・ *.pdf OASYS, 新松, Lotus123, Windows3.1 Write
MultiReaderクラス 様々な形式の文書の内容のみを読み込む コンストラクタ メソッド MultiReader(string xdoc2txtExePath) xdoc2txtExePath: xdoc2txtの実行ファイルのパス メソッド string Read(string filePath) filePath: 取得したいファイルのパス 返り値: ファイルの内容 様々なファイルを読み込むことができる。 拡張子で判断する
TextReaderクラス テキストファイルの内容を取得する 拡張子が何でも読もうとする SlothLib.Textのクラスを用いて文字コードを自動判断 SlothLib.Text.TxtEncConverter オープンソースのTxtEncを利用する文字コード判別用クラス メソッド string Read(string filePath) filePath: 取得したいファイルのパス 返り値: ファイルの内容