ウチダスペクトラム株式会社 Product Management Office

ウチダスペクトラム株式会社 Product Management Office
ナレッジセンター機能解説と設計概念ウチダスペクトラム株式会社 Product Management Office

集合知形成フレームワーク（ナレッジセンター概念図）
組織【検索結果に過去の利用状況を提示】付加情報（Collabo）付き検索結果タグ、コメント、投票【エンタープライズレコメンド】関連キーワード、関連ドキュメント一覧ドキュメント参照ユーザー一覧キーワード利用ユーザー一覧【ユーザーレコメンド】【監査】操作履歴の表示【プロファイリング】ユーザー、スペース、ドキュメント、キーワード検索するドキュメント参照する作業履歴ナレッジコンテンツタグ投票コメントドキュメントメタデータ登録タグをつけるコメントをつける投票するナレッジログ検索検索ログ参照ログログイン・ログアウトログ etc 検索手順を保存するブックマークするナレッジオブジェクトお気に入りサーチお気に入りドキュメントお気に入りタグサーチヒストリタグヒストリメッセージ QA 【個人の利用履歴の管理】個人スペース【検索手段の簡単作成・共有】共有スペースデータソース検索エンジン File Server ドキュメントメタデータの取得 Web Site 自動タグ【コンテンツの自動分類】自動タグデータベース Lotus/Notes

ナレッジオブジェクト検索をベースとした「集合知の形成」を積極的に取り入れていくことが、情報活用方法を考える上で重要なポイントとなります。InSightでは、ユーザーのつけたタグや、ユーザーが行った検索の条件、特定の検索結果のブックマークなどを「ナレッジオブジェクト」として保存し、分析・再利用ができる「集合知の形成」を実現しています。以下の種類のナレッジオブジェクトをサポートします。種別概要お気に入りサーチ使用した検索条件を保存し、再利用を可能にします。お気に入りサーチを作成すると、よく使用する条件を毎回設定する必要がなく、簡単に複雑な条件の検索をおこなうことができます。お気に入りドキュメントよく参照するドキュメントのリンク情報を保存します。お気に入りタグよく使用するマスターデータを保存して、検索で再利用することができます。　メッセージ指定した条件で、新着ドキュメントをお知らせします。　サーチヒストリ検索で使用したキーワードをフィールド別に保存します。タグヒストリタグ付けとして使用した値を保存します。

ナレッジオブジェクトの登録 Widget操作ナレッジオブジェクトの登録（作成）は、Widgetの操作およびアイテムのD&Dにより、個人スペースに登録されます。アイテムのD&D

コラボレーション ● スペースナレッジオブジェクトは、スペースと呼ばれる管理領域で管理されます。
スペースには、個人スペースと共有スペースがあり、ナレッジオブジェクトを作成すると、個人スペースに保存されます。個人スペースで管理しているオブジェクトを共有スペースへD&Dすることで、オブジェクトを特定のグループ、組織に公開することができます。スペースは、ユーザーフォルダを作成することができ、オブジェクトを階層管理することが可能となっています。フォルダを作成し、階層管理が可能。登録共有【検索】ナレッジオブジェクト個人スペース共有スペーススペースは、必要なユーザー、グループごとに、複数作成することが可能ナレッジオブジェクト

レコメンド機能ユーザーが実行した検索や指定したドキュメントに対して、関連する情報を表示します。種別説明検索履歴
下記のレコメンドを表示します。【キーワード】サーチバーで検索したキーワードで、過去に利用した追加キーワードを表示します。【エンタープライズユニット名、エンタープライズグループ名、InSightグループ名、アクションユーザー名】サーチバーで検索したキーワードを、過去に利用した組織、グループ名、ユーザー名を表示します。参照履歴サーチバーで検索したキーワードの検索結果で、過去にダウンロードされたことのあるドキュメントの一覧を表示します。ドキュメント参照履歴検索結果のドキュメントから、過去に参照したユーザー名の一覧を表示します。

ナレッジメタデータ＆ナレッジコンテンツナレッジオブジェクト、ログデータに加えて、コンテンツに付与されたナレッジメタデータをInSightのストレージに保存します。【ナレッジメタデータ】閲覧（ユーザーが閲覧した履歴）投票（そのドキュメントの投票数）お気に入りドキュメント（ドキュメントのお気に入りドキュメントへの登録数）ユーザータグ（フリーテキストタグ）エンタープライズタグ（マスターを使用したタグ）コメント（フリーテキストでのコメント）これらのコンテンツのメタデータと関連するナレッジメタデータの格納領域をナレッジコンテンツと呼びます。タグお気に入りドキュメント検索結果ウィジェット閲覧投票コメントドキュメントタイトル・要約・更新日時 etc ナレッジコンテンツ

自動タグ自動タグ付けは、実際のコンテンツに手を入れることなく、点在するドキュメントに
共通の意味付けをおこなうことで、「見える化」が図れ、再発掘をサポートします。【拠点・共有フォルダ１】【拠点・共有フォルダ３】拠点ごとにフォルダ階層が異なり、ファイル名などのルールもないため、一貫した検索は難しい。【拠点・共有フォルダ２】【検索用インデックス】【研究テーマ別】サーチエンジン【製品別】【ドキュメント種別】事前に定義したルールにもとづき、仮想グルーピングをおこなう。タグ付けにより、検索の絞込みが可能。またタグやプロパティを可視化することで、「見える化」の実現し、活用を促進する。

仮想統合フレームワークを利用した検索インデックス作成機能
仮想データ統合フレームワーク柔軟なパイプライン処理クローラーデータ　プロセッシングサーチフェデレーションメタデータマッピング Notes Connector JDBC Connector INDEX チェーンデータ Enterprise Crawler Internet Service File Crawler タグマスターコンテンツセットインターネットサービスを利用可能なフェデレーションサーチ

UpdateProcessorChain
自動タグ付けの概念対象となるファイルの中身などからマッピングするタグデータをデザインします。ファイルのクロール処理の過程で、プロパティや中身からコンテンツに対してメタデータを自動付与します。 UpdateProcessorChain Solr UpdateHandler ファイルの読み込み Solr Index ファイルクローラ Processor Other ・・・ Processor G2 Custom ・・・ Processor Other １．ファイルを解析２．コンテンツと関連するマスタ参照 Title テスト計画書 MimeType application/msword URL \\tokyodev\dev1\testplan.doc 研究テーママスタ３．メタデータ付与素材・技術マスタ製品種別冷蔵庫部門開発１部 Insight G2 DB 属性の追加

自動タグ付け機能概要プロパティフォルダマッピング本文抽出 3.1 フリーキーワード 3.2 特定位置テキスト抽出
自動タグ付けは、ユーザーの要件やコンテンツの管理状況などから、様々なソリューションがありますが、下記に代表的な手法を示します。以下に、自動タグ付けの代表的なパターンを記します。プロパティ著者、タイトルなどのファイルに含まれるプロパティをタグとして利用する。プロパティの値をそのまま利用することも可能だが、そこに含まれる文字列から辞書、ルールに基づいたゆらぎの補正、マッピングによるタグ付けをおこなうことも可能。フォルダマッピングファイルが格納されているフォルダとタグのマッピングをおこない、ファイルにタグ付けを行う。複数の異なるフォルダ階層をもった共有フォルダ（サーバー）に対して、同じタグをマッピングすることも可能。本文抽出ファイルの本文情報から、タグパターンの解析を行い、一致するタグ付けを行う。本文の解析には、下記のパターンがある。 3.1 フリーキーワード特定のキーワード（複数可）の存在有無や正規表現での適合チェックをおこない、適合する場合、マッピングされているタグ付けをおこなう。 3.2 特定位置テキスト抽出 Excelのセルや、ヘッダ/フッダなど文書の特定の位置をターゲットとして、テキストの抽出を行いタグ付けを行う。 ※ 基本的には、ユーザー要件に応じて、クロール処理もしくは、UpdateProcessorにカスタマイズが必要となります。

自動タグパターン１）プロパティによる自動タグ
自動タグパターン１）　プロパティによる自動タグ文書のファイルに含まれるプロパティをタグとして利用します。プロパティに含まれる文字列にゆらぎがある場合は、辞書や一定のルールを定義することで、統一したタグとして登録することもできます。【ドキュメントに格納されているプロパティ】【検索インデックス】プロパティ名値タイトルテスト計画書分類項目テストプランニング件名ドラム耐久テスト作成者 Toshiaki Nakagawa ゆらぎ補正ドキュメント種別製品種別テスト計画洗濯機【製品種別キーワード・マッピング】キーワード製品種別ドラム、糸くずフィルター、パルセーター洗濯機製氷機、冷媒循環回路冷蔵庫プロパティ情報を取得してキーワードを検索該当の製品種別をタグとしてインデックスに格納

自動タグパターン２）フォルダマッピングファイルが格納されているフォルダ構造をもとにして、タグを決定して、自動的にマッピングを
自動タグパターン２）　フォルダマッピングファイルが格納されているフォルダ構造をもとにして、タグを決定して、自動的にマッピングをおこないます。階層の異なるフォルダでも、それぞれにマッピングデータを保持することで共通のタグ付けをすることが可能部品マスターフォルダータグマッピングマスター部門マスタ

自動タグパターン３ｰ１）本文抽出（フリーキーワード）
自動タグパターン３ｰ１）　本文抽出（フリーキーワード）本文に１つ以上の該当する単語が存在する場合、マスターで定義されたタグを自動的に付与します。【検索インデックス】本文テキストの抽出 BODY 研究テーマ本文水流による洗浄効果プロパティ情報を取得してキーワードを検索【研究テーマキーワード・マッピング】キーワード QueryType 研究テーマドラム、パルセーター、水流* AND 水流による洗浄効果ドラム、回転式、渦巻き式* OR 回転ドラム式洗濯機【様々な検索手法を考慮】【カスタマイズポイント】複数のキーワードを指定して、AND/OR キーワードを正規表現で指定して、あいまい検索ノーマライズ（大文字小文字、全角半角）検索 UpdateProcessor

自動タグパターン３ｰ２）本文抽出（特定位置テキスト抽出）
自動タグパターン３ｰ２）　本文抽出（特定位置テキスト抽出）本文の特定の位置や領域に存在する文字列から、マスターで定義されたタグを自動的に付与します。【検索インデックス】 BODY 種別本文部品調達管理票ユーザーマニュアル【様々な検索手法を提供】マッピングテーブルに指定された位置にある文字列を比較対象とする。位置の例は、Excelのセル、ページ番号（シート）、ヘッダ/フッダなどテキストを特定できる領域となる。【種別キーワード・マッピング】キーワード検索種別文書種別位置種別部品調達先 AND xlsx B3 部品調達管理票ユーザーマニュアル OR docx head ユーザーマニュアル

ナレッジセンターの構成ナレッジセンターは、ナレッジログとナレッジコンテンツの2種類のインデックスで構成されています。ナレッジセンター
検索、検索… これ、タグ付しとこうログアウト…と。絞込み検索して… お気に入り登録しておこう。ログイン検索タグ付けコメント追加投票・・・etc 閲覧情報タグ付されたタグ情報コメント情報投票情報ブックマーク情報コメント入れておこうナレッジセンター InSight内部に Solr Indexを保持ナレッジログナレッジコンテンツ主に操作ログ主にメタデータ情報

ナレッジログとはナレッジログとは以下のような操作のログです。サーチログサーチバー等からの検索や、ナビゲーションからの絞込みやデータチェインなどのログ実行日時、実行ユーザー、検索条件などの情報を保持しています。リファレンスログドキュメントの閲覧のログ閲覧日時、実行ユーザー、閲覧ドキュメントパスなどの情報を保持しています。タギングログエンタープライズタグやユーザタグのタグ操作や、コメントや投票の操作ログタギング日時、実行ユーザー、付加/削除されたメタタグ、付加/削除されたドキュメントパスなどの情報を保持しています。ログイン/ログアウトログログイン・ログアウトのログログイン・ログアウト日時、実行ユーザーなどの情報を保持しています。ナレッジオブジェクトアクションログ個人/共有スペースのナレッジオブジェクトの操作やお気に入りドキュメントの操作ログ操作日時、実行ユーザー、操作対象となるナレッジオブジェクト情報などを保持しています。

ナレッジログの登録（１）ナレッジログをキューに溜め、バッチ処理でナレッジログにインデックスする場合の登録の流れ ① ② ③
例）検索時 ①検索を実行 ②ナレッジログをキューに保存（※） ③InSightの内部バッチである　LogCommiterバッチが、指定された　スケジュールに基づき実行 ④未登録のナレッジログが有る場合はキューからインデックスに登録して commitする ① ② ③ LogCommitter バッチ KC Queue ナレッジログインデックス ④ （※）Log4jの設定で、キューを利用する設定の場合

ナレッジログの登録（2）ナレッジログをファイルに溜め、バッチ処理でナレッジログにインデックスする場合の登録の流れ ① ② ③
例）検索時 ①検索を実行 ②ナレッジログをファイルに保存（※） ③InSightの内部バッチである　LogFeederバッチが、指定された　スケジュールに基づき実行 ④未登録のナレッジログが有る場合は Feedされたログ情報からインデックスに登録してcommitする ① ログフォルダ ② ③ LogFeeder バッチナレッジログインデックス ④ （※）Log4jの設定で、ファイル保存を利用する設定の場合

ナレッジコンテンツとは閲覧閲覧日時、閲覧ユーザー、閲覧回数、閲覧したドキュメント情報など
ナレッジコンテンツとは以下のようなナレッジメタデータ情報です。 LWSにインデックスするナレッジメタデータ情報のバックアップでもあります。閲覧閲覧日時、閲覧ユーザー、閲覧回数、閲覧したドキュメント情報などお気に入りドキュメントお気に入りドキュメント登録日時、登録ユーザー、登録件数、登録したドキュメント情報などタギングログエンタープライズタグやユーザタグの登録日時、登録ユーザー、登録件数、登録したエンタープライズタグやユーザタグ、登録したドキュメント情報など投票投票日時、投票ユーザー、投票件数、投票したドキュメント情報などコメントコメント登録日時、登録ユーザー、登録件数、登録したコメント、登録したドキュメント情報など

ナレッジコンテンツの登録ナレッジコンテンツの登録の流れ ① ② ナレッジログ InSight DB インデックス ③
例）投票時 ①投票をクリック ②データベースにナレッジメタデータ情報を登録 ③InSightの内部バッチである　KCMetadataUpdateバッチが、　指定された　スケジュールに基づき　実行 ④更新データが有る場合はインデックスに登録してcommitする ① メタデータ情報操作ログ ② ナレッジログインデックス InSight DB 更新データ有り ③ KCMetadataUpdater ④ LWS Knowledge Contents Index

ナレッジセンターの構成ナレッジセンターは、デフォルトの設定ではInSightと同一サーバー上に構築されます。
・logdataフォルダとdataフォルダは insightConfig_Local.xmlで、インデックスを保存するフォルダパスを指定します。 InSighのログ　　（kc.log) dataフォルダナレッジコンテンツ logdataフォルダ利用頻度が高いInSightと同一サーバー上にナレッジセンターがある場合、次第にナレッジセンターのインデックスが肥大してInSightサーバー自体の負荷が高くなることがあります。ナレッジログ

ナレッジセンターを外部サーバーに構築 InSightの利用頻度の高い場合は、ナレッジセンターを外部サーバーに構築して
ナレッジセンターによる負荷分散することが可能です。 InSighのログ　　（kc.log) ナレッジの検索・ナレッジメタデータの更新ログのフィード dataフォルダ logdataフォルダナレッジコンテンツナレッジセンター専用 Webアプリケーションナレッジログ ※ナレッジセンター用サーバは、複数台でも構成することも可能です。

データ量設計例利用想定ユーザー数3500人（１日当りの平均利用者数：60%）
1人当たりの利用想定数：50action （ナレッジコンテンツ：10ドキュメント）の場合 InSighのログ　　（kc.log) 1actionあたりの増加量を1KB ＝ 1日あたりの増加量：約105MB（1×50action ×2,100人）＝ 1月あたりの増加量：約 2.3GB（約170MB×22日） logdataフォルダナレッジログ 1actionあたり2.5KB増加＝ 1日あたりの増加量：約262MB（2.5×50action ×2,100人）　＝ 1月あたりの増加量：約 5.7GB（約262MB×22日） dataフォルダ 1ドキュメントあたり60KB増加ナレッジコンテンツ＝ 1日あたりの増加量：約1.2GB（60×10ドキュメント ×2,100人）　＝ 1月あたりの増加量：約 26GB（約2GB×22日） ※ ※ 新規ドキュメントのタグ付のみ増加します。既にナレッジコンテンツに格納されているドキュメントに対する操作は、アップデートとなり増加対象とはなりません。注意） 1actionあたりの増加量は、検索条件の量に依存します。また、1ドキュメントあたりの増加量は、メタデータ情報をタギングするドキュメントに依存します

ナレッジセンター運用にかかわるバッチ（１）
ナレッジセンターにデータを登録する際に必要となるバッチバッチ名概要 LogCommitter ナレッジログデータをキューに溜めて利用する場合に必要となるバッチです。このバッチを実行すると、ログ情報がナレッジログに反映されます。ナレッジログの増加量が少ない場合に向いています。 LogFeeder ナレッジログデータをファイルに保存して利用する場合に必要となるバッチです。ナレッジログの増加量が多い場合に向いています。また、万が一ナレッジログのインデックスが破損しても、ファイルから全て復旧が可能です。 KCMetadataUpdater ナレッジメタデータ情報をナレッジコンテンツに登録および検索エンジンへの登録に必要となるバッチです。検索エンジンへの登録があるので、実行間隔は検索エンジン側のCommitのタイミングを考慮する必要があります。

ナレッジセンター運用にかかわるバッチ（2）
ナレッジセンターを運用する上で、必要となるバッチバッチ名概要 LogDeleter ナレッジログの削除用バッチです。設定された条件に従ってナレッジログを削除します。例）起動日より1年前 KCIndexOptimizer ナレッジログ、ナレッジコンテンツそれぞれに設定が必要となります。 Optimize実行のタイミングは、インデックス更新後を目安にしてください。また、インデックスが大きくなるとオプティマイズに時間が掛ります。 HooSlaveReplicator ナレッジセンターを外部サーバーで構築する場合に必要となるバッチです。外部に構築したナレッジセンターの死活管理を行います。

バックアップとリカバリバックアップリカバリ
ナレッジログナレッジログのバックアップは、2種類あります。いずれかの方法でバックアップを行ってください。ナレッジログのインデックスを定期的にバックアップする（Tomcatを停止してコピーする） kc.logファイルを保管しておくナレッジコンテンツのバックアップナレッジコンテンツのインデックスを定期的にバックアップする（Tomcatを停止してコピー）リカバリナレッジログバックアップしたナレッジログのインデックスに差し替える（Tomcatを停止してコピーする） kc.logファイルを利用して、LogFeederバッチで再作成する（リポジトリファイルを削除後、Tomcatを起動すると再作成されます）ナレッジコンテンツバックアップしたナレッジコンテンツのインデックスに差し替える（Tomcatを停止してコピー）

ご清聴いただき、ありがとうございました。

ウチダスペクトラム株式会社 Product Management Office

Similar presentations

Presentation on theme: "ウチダスペクトラム株式会社 Product Management Office"— Presentation transcript:

Similar presentations

About project

フィードバック

ログインする

Auth with social network:

ウチダスペクトラム株式会社 Product Management Office

Similar presentations

Presentation on theme: "ウチダスペクトラム株式会社 Product Management Office"— Presentation transcript:

Similar presentations

About project

フィードバック