国語研日本語ウェブコーパス 検索系:梵天(BonTen)

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

1 検索 ● 検索: 特定の文字列を探す ⓪検索を行う範囲を限定するときは、範囲選択をする。 ① 「ホーム」タブ⇒「編集」⇒「検索」タブとクリックする。 ②「検索する文字列」欄に検索したい文字を入力する。 ③「次を検索する」をクリックする。 ③ ‘ 「検索された項目の強調表示」⇒「すべて強調表示」とクリックすると、
コーパス言語学実践 2006 年度 2 学期 第 7 回. 2 本日の内容 前回までのまとめ – ファイルの確認 – ファイルの分割 – エクセルでの作業(品詞構成比率 延べ語 数) 品詞構成比率(異なり語数) データ収集(占いのことば)
1 WORD の起動法と終了法 ● WORD の起動法 (1) デスクトップの Microsoft Word アイ コンをダブルクリックする。 * (2) 「スタート」 ― 「すべてのプログラ ム」 ― 「 Microsoft Word 」と選ぶ。 (3) Word で作成された文書があるとき は、そのアイコンをダブルクリック.
東京工科大学 コンピュータサイエンス学部 亀田弘之
Conditional Random Fields を用いた 日本語形態素解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
情報処理 第12回.
図の挿入 ●方法1 ①図を挿入する位置にカーソルを置く。 ②「挿入」タブ ⇒「図」 → 「ファイルから」とクリックする。 ③挿入するファイルを選択し、「挿入」をクリックする。 ●方法2(書式までコピーされるので、ファイルサイズが大きくなる) ①挿入する図をコピーする。 ② 挿入する位置にカーソルを移動し、ツールバーまたは右クリックメニューの「貼り付け」をクリックする。
情報処理 第8回.
ヘルスケア連動型 市販薬検索システム 研究者 : 加納 えり 指導教員 : 越田 高志.
Twitterの発言に基づくウェブページ推薦システム
言語体系とコンピュータ 第5回.
てやんでい!職人気質 株式会社ブースターテクノロジー
「茶筌」/「南瓜」を用いた 形態素解析・係り受け解析
Excel による データベース入門 Ver /9.
ファイルやフォルダを検索する ①「スタート」→「検索」→「ファイルとフォルダ」とクリックする。
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報の探し方ガイダンス 法律判例文献情報 CD-ROM編.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
エクセル(2)の目次 セル範囲の指定方法 データの消去法 アクティブセルの移動 セル内容の複写と移動 セル幅の変更方法
動詞と格要素の共起と 名詞の出現パターンを用いた 事態性名詞の項構造解析
SLAT2/ChaKi.NET DB Model 解説資料 (兼 ChaKi-SLAT 統合状況の経過説明)
OSC京都 2016 おーぷん万葉プロジェクト 京橋 ひよわ
テキストマイニング, データマイニングと 社会活動のトレース
コーパス言語学実践 2006年度2学期 第5回.
ネットで百科 for Library の使いかた
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
文献管理ソフトRefWorksの利用.
医中誌Web利用講習会 平成23年5月31日 丸善株式会社.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析および係り受け解析・主語を判別
DixChange プロジェクト ~辞書共通化の試み~
情報処理 第13回.
CiNii Articlesトップページ クイックガイド <キーワードによる検索方法>
医中誌Web利用講習会 平成23年5月31日 丸善株式会社.
日本語解析済みコーパス管理ツール 「茶器」
1月19日 辞書 自然言語処理における辞書の役割 機械辞書設計の要点 辞書の種類と用途.
1 Macの基本操作 1-5 文字入力(1/4)  (1)Windows風のキー設定
平成22年6月15日 図書系職員のための アプリケーション開発講習会
10 Microsoft Word(1) 10.1 Microsoft Word v.Xの概要 起動 終了
第8章 Web技術とセキュリティ   岡本 好未.
管理画面操作マニュアル <サイト管理(1)> 基本設定 第9版 改訂 株式会社アクア 1.
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
複数の言語情報を用いたCRFによる音声認識誤りの検出
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
大規模データによる未知語処理を統合したスケーラブルな仮名漢字変換
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
クイックガイド <キーワードによる検索方法>
諸連絡 USBメモリの販売について 日時:6月23日(月)授業開始前 商品:プリンストン社製32MBのUSBメモリ
発注者側サイト操作説明書 作成日:2004年6月 Ver1.0 初版 改 訂:2005年9月 Ver1.2 株式会社 コニファ.
<日本語教育とAI:研究実践例と今後の課題 > 読解支援システムへのAI活用の可能性と留意点
7-0.SWORD Client for WEKO インストールマニュアル Version 2.2
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
★CD-ROMを使った情報検索 瞬時に検索できる! ★電子文字化されたデータを使いレポートを仕上げる 電子文字は加工が容易!
テキストマイニング, データマイニングと 社会活動のトレース
超大規模ウェブコーパスを用いた 分布類似度計算
管理画面操作マニュアル <メールマガジン配信> 第5版 改訂 株式会社アクア 1.
東京工科大学 コンピュータサイエンス学部 亀田弘之
CSJセミナー参加報告 北村・徳田研究室 中村和寛.
コーパス管理システム 『ChaKi.NET』
Excel 2002,2003基本7 名前機能.
情報処理 第13回.
並列構造に着目した係り受け解析の改善に関する研究
コンパイラ 2012年10月11日
単語登録(1) ◎MS-IMEの「単語登録」に、単語、語句、記号など自分がよく使うものを登録しておくと、便利である。
Presentation transcript:

国語研日本語ウェブコーパス 検索系:梵天(BonTen)

接続方法 http://bonten.ninjal.ac.jp/ 右上の[ログイン] をクリックしたあと、中納言にログインする 一般利用者は文字列検索機能のみ利用可能 右上の[ログイン] をクリックしたあと、中納言にログインする 講習会参加者は全機能利用可能

梵天の特徴 3種類の検索方法 ドメイン指定検索 検索結果のダウンロード 文字列検索 品詞列検索 係り受け検索 ドメイン(ac.jp など末尾2パート)指定が可能 検索結果のダウンロード CaboCha形式 タブ区切りテキスト形式(TSV形式)

梵天のデータ作成方法 自動解析 解析処理 人手による修正は加えていない 形態素解析器「MeCab-0.996」 解析用辞書「UniDic-mecab-2.1.2」 係り受け解析器「CaboCha-0.69 UniDic 主辞規則」

検索時に必要な知識:品詞列検索 UniDic の短単位の知識 キーの種類 意味 表層形 語形を表現する表記の形(コーパスに出現した形) 品詞1 〈大分類からの選択式〉 例:名詞 品詞2 〈中分類からの選択式〉 例:固有名詞 品詞3 〈小分類による選択式〉 例:人名 品詞4 〈小分類による選択式〉 例:姓 活用型 〈選択式〉 例:五段-カ行 活用型細分類 〈選択式〉 例:五段 活用形 〈選択式〉 例:連用形 活用形細分類 〈選択式〉 例:連用形-一般 語彙素読み 語彙素の現代仮名遣い読みの全角カタカナ 語彙素 語彙の意味を示す・現代語の標準表記・漢字平仮名交じり

注意語 表層形 品詞 語彙素 語彙素読み する 動詞 為る スル とても 副詞 迚も トテモ それ 代名詞 其れ ソレ その 連体詞 其の ソノ いきなり 行成 イキナリ おはよう 感動詞 御早う オハヨウ ゴム 名詞-普通名詞-一般 ゴム-gom ボタン ボタン-button 京都 名詞-固有名詞-地名-一般 キョウト ドロシー 名詞-固有名詞-人名-一般 ドロシー-外国

検索時に必要な知識:係り受け検索 国語研文節単位 係り受け基準 京都大学テキストコーパス基準 但し、解析精度が高くないので、 あまり基準にとらわれる必要はない

検索について 文字列検索 品詞列検索 係り受け検索 単位の切れ目を気にせずに文字列を検索できる。  単位の切れ目を気にせずに文字列を検索できる。  「出現した表記」の検索:「こくご」を調べると「国語」はヒットしない。 品詞列検索  品詞列の情報を条件式として指定し、条件にマッチする語を検索できる。  接尾辞「ぽい」が出てきた例を調べたい場合、語彙素「ぽい」で検索すると表層形「ぽい」「っぽい」「っぽく」「っぽ」がヒットする。 係り受け検索  品詞列の情報に加え、係り受け関係の情報を条件式として指定し、その条件にマッチする文節を検索できる。  「私は」が動詞に係る例を調べたい場合、文節「私+は」(→係り先→)文節「品詞:動詞-一般」で検索すると、「私は」が動詞に係っている文がヒットする。

文字列検索:検索画面 「文字列検索」タブをクリック 「検索文字列」の入力欄に文字列を入力し、「検索」ボタン ※ 「URLドメイン」指定:2パート(第2レベルドメイン)を入力 

文字列検索例 例)NWJC内に何件「バルス」という文字列を含む「文」があるか (件数が50件以上ある場合は、1~50件のみ表示)   (件数が50件以上ある場合は、1~50件のみ表示) ※文字列検索はあくまで「検索対象の文字列を含む」すべての文字列を結果に返す

データ表示形式 検索結果は文単位で表示 中心となるキーは、検索条件にマッチした文節すべてを含む文字列(赤字) 本文文字列の上に品詞を表示 マウスを乗せた文節は”黄色”,その文節へ係っている文節(係り元)を”青色”,その文節が係っている文節(係り先)を”赤色”で表示

品詞列(短単位)検索:検索画面 「品詞列検索」タブをクリック ボックス(初期値は緑)に形態論情報を入力し、「検索」ボタン 複数語の組み合わせ検索は「+」を押してボックス追加

品詞列検索例(1) 例)語彙素「言語」+助詞-準体助詞(隣接)の検索画面 <品詞1> <品詞2> <語彙素>

品詞列検索例(2) 例)語彙素「言語」+助詞-準体助詞(間に0-2形態素)の検索画面 <品詞1> <品詞2> <語彙素>

係り受け検索:検索画面 「係り受け検索」タブをクリック 色つきボックス(初期値は緑)が1文節、灰色ボックスが1語を表す 複数語/文節の組み合わせは   を押してボックス追加 文節 文節 単語 単語 [^]: 文/文節頭 [+]: 文節/単語ボックス追加 [<]: 文節/単語ボックス追加かつ文節/単語の順序指定 [-]: 文節/単語ボックス追加かつ直後 [$]: 文/文節末

係り受け検索例(1) 例) 「人生は」→「○○だ」 順序 文節ID「0」が文節ID「1」にかかる 係り先文節ID 単語の隣接 単語の隣接 [^]: 文/文節頭 [+]: 文節/単語ボックス追加 [<]: 文節/単語ボックス追加かつ文節/単語の順序指定 [-]: 文節/単語ボックス追加かつ直後 [$]: 文/文節末

係り受け検索例(2) 例) 「人生は」→「○○だ」

検索履歴機能 [編集して検索(UI)] 検索要求の一部を変更する [再検索] 同じ検索を繰り返す

検索結果のダウンロード:TSV 大量件数ダウンロード(TSV形式)を選択 「ダウンロード」をクリック ファイル名は「corpus_使用検索名_text_年_月_日_時刻」 Excel(Windows) を指定すると MS Excel で開ける TSV 形式

検索結果のダウンロード:CaboCha形式(1) 「ダウンロード」をクリック ファイル名は「corpus_使用検索名_cabocha_年_月_日_時刻」

検索結果のダウンロード:CaboCha形式(1) → ChaKi.NET で読み込むと可視化できる * 0 1D 3/4 0.846072 お 接頭辞,*,*,*,*,*,オ,御,お,オ,お,オ,和,*,*,促添,基本形 知らせ 名詞,普通名詞,一般,*,*,*,シラセ,知らせ,知らせ,シラセ,知らせ,シラセ,和,*,*,*,* : 補助記号,一般,*,*,*,*,,:,:,,:,,記号,*,*,*,* 明日 名詞,普通名詞,副詞可能,*,*,*,アス,明日,明日,アス,明日,アス,和,*,*,*,* は 助詞,係助詞,*,*,*,*,ハ,は,は,ワ,は,ワ,和,*,*,*,* * 1 5D 2/5 -1.819861 三 名詞,数詞,*,*,*,*,サン,三,三,サン,三,サン,漢,*,*,*,* 者 接尾辞,名詞的,一般,*,*,*,シャ,者,者,シャ,者,シャ,漢,シ濁,基本形,*,* 面談 名詞,普通名詞,サ変可能,*,*,*,メンダン,面談,面談,メンダン,面談,メンダン,漢,*,*,*,* な 助動詞,*,*,*,助動詞-ダ,連体形-一般,ダ,だ,な,ナ,だ,ダ,和,*,*,*,* の 助詞,準体助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,* で 助動詞,*,*,*,助動詞-ダ,連用形-一般,ダ,だ,で,デ,だ,ダ,和,*,*,*,* 、 補助記号,読点,*,*,*,*,,、,、,,、,,記号,*,*,*,*

CaboCha形式について(1) 4種類の行からなる 文節番号行 形態論情報行 コメント行 EOS行 形態素解析器 MeCab の出力互換 #! ではじまる行 EOS行 表示例 #! DOC 80295361 #! DOCID 80295361 URL * 2 3D 0/0 2.711019 ひょっと 副詞,*,*,*,*,*,ヒョット,ひょっと,ひょっと,ヒョット,ひょっと,ヒョット,和,*,*,*,* * 3 5D 12/13 -1.819861 し 動詞,非自立可能,*,*,サ行変格,連用形-一般,スル,為る,し,シ,する,スル,和,*,*,*,* たら 助動詞,*,*,*,助動詞-タ,仮定形-一般,タ,た,たら,タラ,た,タ,和,*,*,*,* EOS

CaboCha形式について(2) 文節番号 係り先の文節番号(係り先なし:-1) 係り受け関係ラベル (D) 主辞の形態素位置/機能語の形態素位置 係り関係のスコア(大きい方が確信度が高い) * 1 2D 1/2 1.860856 音楽 名詞,普通名詞,一般,*,*,*,オンガク,音楽,音楽,オンガク,音楽,オンガク,漢,*,*,*,* 最近 名詞,普通名詞,副詞可能,*,*,*,サイキン,最近,最近,サイキン,最近,サイキン,漢,*,*,*,* の 助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,* * 2 7D 0/1 0.303176 って 助詞,副助詞,*,*,*,*,ッテ,って,って,ッテ,って,ッテ,和,*,*,*,*

CaboCha形式について(3) 形態論情報行仕様:MeCab-UniDic の出力と互換 出現形書字形 \t 品詞, 品詞細分類1(大分類), 品詞細分類2(中分類), 品詞細分類3(小分類), 活用型, 活用形, 語彙素読み, 語彙素, 書字形(表層形), 発音形出現形, 書字形(基本形), 発音形(基本形), 語種, 語頭変化型, 語頭変化形, 語末変化型, 語末変化形 * 1 2D 1/2 1.860856 音楽 名詞,普通名詞,一般,*,*,*,オンガク,音楽,音楽,オンガク,音楽,オンガク,漢,*,*,*,* 最近 名詞,普通名詞,副詞可能,*,*,*,サイキン,最近,最近,サイキン,最近,サイキン,漢,*,*,*,* の 助詞,格助詞,*,*,*,*,ノ,の,の,ノ,の,ノ,和,*,*,*,* * 2 7D 0/1 0.303176 って 助詞,副助詞,*,*,*,*,ッテ,って,って,ッテ,って,ッテ,和,*,*,*,*

制限事項 文字列に対する正規表現は利用できない 名詞-固有名詞-人名-{姓,名}は〓文字でマスク 頻度情報に意味を持たせるときは注意 ページ単位で「異なり」を取り、文単位で「異なり」をとっている 同一文に複数回出現する場合には、最左マッチの結果のみを表示カウント

参考文献 国内論文誌・紀要: 浅原正幸, 河原一哉, 大場寧子, 前川喜久雄 (2018) 「『国語研日本語ウェブコーパス』とその検索系『梵天』」情報処理学会論文誌, Vol 59, No. 2, pp.299-306. 国際会議予稿集: Masayuki Asahara, Kazuya Kawahara, Yuya Takei, Hideto Masuoka, Yasuko Ohba, Yuki Torii, Toru Morii, Yuki Tanaka, Kikuo Maekawa, Sachi Kato and Hikari Konishi (2016) ‘‘BonTen’ – Corpus Concordance System for ‘NINJAL Web Japanese Corpus’’ Proc. of COLING-2016 Demo Session.