言語メディア処理 第15回 授業全体のまとめ 横井俊夫
学習ノート 学習ノート提出状況 http://www2.teu.ac.jp/media/~yokoi/lang.htm
学習の重点 基本的な原理 他のメディアとの役割分担 コンテンツを構成する役割 システムの中での役割 言語処理ソフト・データ 言語学として 言語処理として 他のメディアとの役割分担 コンテンツを構成する役割 システムの中での役割 言語処理ソフト・データ 言語コミュニケーション
基本的な原理:言語学 文の構造:文の基本構造 [線形構造] [句構造]:英語など構造の固い言語に適する [依存構造]:日本語などに適する
日本語、英語、中国語の比較 [日本語] 昨日先生が書店で本を買った。 [日本語] 昨日先生が書店で本を買った。 [英 語] The teacher bought a book in the bookstore yesterday. [中国語] 老師昨天在書店買書了。
昨日先生が書店で本を買った。 基本構造(文型) SOV 名詞の格(意味役割) 接辞(助詞、後置詞) 動詞の時制 接辞(助動詞) 接辞(助詞、後置詞) 動詞の時制 接辞(助動詞) 膠着語(agglutinative language) :実質的意味を持つ語や語幹に機能語や接辞を付けて、さまざまな文法範疇(名詞の格や動詞の法・時制など)を表す言語。日本語、朝鮮語、ウラル・アルタイ語族諸語。
The teacher bought a book in the bookstore yesterday. 基本構造(文型) SVO 名詞の格(意味役割) 位置、語(前置詞) 動詞の時制 形態変化 屈折語(inflectional language): 文法範疇(名詞の性・数・格、動詞の時制など)を表すために形を変える機能を持つ言語。英語、フランス語、ドイツ語、インド・ヨーロッパ語族諸語。
老師昨天在書店買書了。 基本構造(文型) SVO 名詞の格(意味役割) 位置、語(前置詞) 動詞の時制 時制を示す語 (老師)(昨天) (在書店)(買)(書) (了)。 主語 時間名詞 状態語 述語 目的語 語気助詞 基本構造(文型) SVO 名詞の格(意味役割) 位置、語(前置詞) 動詞の時制 時制を示す語 孤立語(isolating language): 個々の形態素が語としての独立性を持ち、格などの文法範疇が語形変化や接辞によらず文中の位置によって表される言語。中国語、チベット語、タイ語、シナ・チベット語族諸語。
単文と複文 [単文] 昨日、東京で地震があった。 今朝の富士山はひときわ美しい。 [複文] 昨日、東京で地震があった。 今朝の富士山はひときわ美しい。 [複文] 昨日、東京で最近では珍しいといわれるほど大きな地震があった。 今朝、私の部屋の窓から見た富士山はひときわ美しかった。 今朝の富士山はひときわ美しいと思った。
単文の構造 「昨夕、東京で雨が激しく降った。」 「昨夕」でもなく、「東京で」でもなく、「雨が」でもなく、「激しく」でもなく、述語成分「降った」が構造を決める。 述語: (1)動詞の述語:「降る」「学ぶ」「学習する」 (2)形容詞の述語:「美しい」「大きい」「静かだ」 (3)名詞の述語(名詞の後に「だ」「である」「です」がつく):「大学だ」「教科書である」「学生です」
単文を構成する成分: (1) 述語成分:「降った」 (2) 格成分:「雨が」 (3) 述語修飾成分:「激しく」 状況成分:「昨夕」「東京で」 <単文>:=<状況成分><格成分> <述語修飾成分><述語成分>
格成分:多くの場合、名詞に「が」「を」「に」「から」「へ」「と」「より」「で」「まで」(「の」)などの助詞(格助詞)が付いた構造 述語修飾成分:副詞(「ゆっくり歩く」の「ゆっくり」)、形容詞の連用形(「速く歩く」の「速く」) 状況成分:出来事が起きた時と場所を表す。文頭に置かれる。これは、補足成分、あるいは、述語修飾成分と考えることもできる。
格成分の構造:格(case) 文法格 場所格 関係格 状況格 数量格 ガ格:主格 ヲ格:対格、目的格 ニ格:与格「弟に渡す/与える/話す」 ニ格:位格「東京にいる/住む/残る」 カラ格: ヘ格: 関係格 ニ格:依拠格「叔父にあたる/似る/頼る」 ト格: ヨリ格: 状況格 デ格: 数量格 ゼロ‐格:「1時間かかる」「3キロ進む」
格成分の内部構造: <格成分>:=<修飾部><名詞><格助詞> <とりたて助詞><間投助詞> [例]赤い‐花‐に‐しか‐ね 英語の格成分の内部構造: <格成分‐前置詞句>:=<前置詞><名詞> <修飾部>
述語成分の構造 <述語成分>:=<述語語幹><ボイス> <アスペクト><テンス><モダリティ> 「見られていたらしい」 <アスペクト><テンス><モダリティ> 「見られていたらしい」 →見(語幹)られ(ボイス)てい(アスペクト)た(テンス)らしい(モダリティ) 「見ていられる」 →見(語幹)てい(アスペクト)られ(ボイス)る 「見たらしかった」 →見(語幹)た(テンス)らしかっ(モダリティ)た(テンス)
英語の述語成分の構造: <述語成分>:=<モダリティ><テンス> <アスペクト><ボイス><述語語幹>
複文の構造 単文、複文、重文 単文(simple sentence): 複文(complex sentence): 「誰もが雪が降ると思っている」 「雪が降ると、電車が止まる」 「雪が降る日は寒い」 「雪が降る」が従属節でそれ以外が主節。 重文(compound sentence): 「花は咲き、鳥は歌う」 ただし、重文も複文に含める
複文の構造 節(clause):述語を中心としたまとまり 複文:複数の節から構成される文 主節(main clause):自立して存在する節がひとつ含まれる 従属節(subordinate clause):主節以外の節は主節に従属する 名詞節 連体節 連用節 並列節
意味の意味 意味、言葉が表現する内容とは 語の意味、文の意味、文章の意味とは 文脈に依存する部分と文脈から独立して議論できる部分 意味論と語用論 コンピュータが扱えるものであること
意味とは 表現するものへの対応付けである 言葉間の関係である 表現するものも表現されている、コンピュータが扱える形で表現されている 表現するものも表現されている、コンピュータが扱える形で表現されている 形式的記号表現 イメージ表現 言葉間の関係である
対象世界 言葉
概念 対象世界 言葉
基本的な原理:言語処理 言語処理 解析と生成 形態素解析:文字列(入力文)→形態素列[形態素辞書] 構文解析:形態素列→構文(意味)構造[構文辞書、文法ルール] 意味解析:構文構造→意味構造[意味辞書、意味ルール] 文脈解析:意味構造→談話構造[文脈知識、文脈ルール] 意味生成:談話構造→文の意味構造[文脈知識、文脈ルール] 構文生成:意味構造→構文構造[意味辞書、意味ルール] 形態素生成:構文構造→形態素列[構文辞書、文法ルール] 表層文生成:形態素列→文字列(出力文)
語と形態素 日本語の場合: 日本語文は分ち書きされていないため語の厳密な定義には議論がある。また、形態素という概念は欧米語の言語学からきたもので、日本語においては定義は明確ではない。日本語の語は大きく10の品詞に分類される。複数の要素からなる語については次の3つの結合の形態がある。 (1) 活用語:活用語幹+活用語尾 「食べ+る」 (2) 派生語:接頭辞+派生語幹、派生語幹+接尾辞 「寒+さ」「真+冬」 (3) 複合語:複数の語が結合 「うれし+泣き」「メディア+学部」
日本語の形態素解析 制約と優先規則:制約(constraint)はそれに違反するものを排除するという厳格な規則である。優先規則あるいは選好(preference)はもっともらしさの優先度を決める規則である 入力文の形態:漢字かな混じり文、かなべた書き文のいずれかである。基本的な手法は同じであるが、かなべた書き文の方がはるかに曖昧度が高くなる。かな漢字変換などでは、処理単位を文節のような短いものにすることによって処理の負担を軽くした
連接規則という制約による解析 2つの形態素が連続して文中にあらわれることができるかどうかを示す連接可能性規則を制約として与え、この制約に違反しない組み合わせを求める。
優先規則の利用 優先規則を利用し、望ましいと思われる結果に絞り込む。 形態素解析における優先規則: 最長一致法: 2文節最長一致法: 最長一致法: 2文節最長一致法: 形態素数最小法: 文節数最小法: コスト最小法:
構文解析とは 文法規則に基づいて文を解析し、文の構造を求める。 文法規則 規則はルールの形式:A→α 文 形態素解析の出力:形態素(品詞等)の列 文の構造 構文木(句構造):木構造(句の入れ子構造) 求める 構文解析アルゴリズム
文法規則(句構造規則と辞書規則):日本語 [句構造規則] <文>→<後置詞句><動詞句> ① <動詞句>→<後置詞句><動詞句> ② <動詞句>→<副詞><動詞> ③ <動詞句>→<動詞> ④ <後置詞句>→<名詞句><助詞> ⑤ <名詞句>→<形容詞><名詞> ⑥ <名詞句>→<名詞> ⑦ [辞書規則] <名詞>→一郎|ボール ⑧ <助詞>→が|を ⑨ <形容詞>→速い ⑩ <副詞>→軽々と ⑪ <動詞>→投げる ⑫
構文木 「一郎が速いボールを軽々と投げた」
文の導出 <文> ⇒<後置詞句><動詞句>:① ⇒ <名詞句><助詞> <動詞句>:⑤ ⇒ ⇒一郎が速いボールを軽々と投げた(⑧⑨⑩⑪⑫)
構文解析アルゴリズム トップダウン(top-down)アルゴリズム ボトムアップ(bottom-up)アルゴリズム
日本語の依存構造と優先規則 日本語文の特徴(英語に比較して) 語順が比較的自由である 格要素の省略が可能である I put a pen on the table. A pen put I on the table.(×) I put on the table.(×) put a pen on the table.(×) 私はペンを机の上に置いた。 ペンを私は机の上に置いた。 私は机の上に置いた。 ペンを机の上に置いた。 私は置いたペンを机の上に。(×)
句構造文法、句構造規則、句構造表現は英語のような構造の硬い言語を扱うのに適している。 日本語には係り受け文法あるいは依存文法、依存構造表現の方が適している。 ある文節が他の文節に係る(依存する)という形式で文の構造を表現する。
他のメディアとの役割分担 それぞれのメディアの役割 それぞれのメディアには、それぞれにメディア本来の役割がある。他のメディアでは代替することのできないそれぞれの役割がある。 画像メディア、映像メディアは、外在する世界をそのまま描き取って、あるがままに表現するメディアであり、言葉、言語メディアは、世界を切り分け、不必要な部分を捨て去り記号として表現するメディアである。言語メディアは、書き言葉である文字言語メディアと話し言葉である音声言語メディアから成り立っていると考えることが出来る。音声言語メディア、あるいは、音声メディアは、人間にごくわずかの負担にしかならないメディアである。密着度の高いコミュニケーションをどのような環境においても実現出来るメディアである。
身体動作、身体行為も大切な役割を持ったメディアである。腕の動き、手のしぐさ、顔の表情、これらの行為メディアは、情報を身体感覚に結び付ける。ゲームマシンに臨場感を持たせることだけがこのメディアの役割ではない。情報という観念世界を身体感覚という現実世界に一体化させ、身体全体で情報のバランスを取れるようにする大きな役割がある。 ただし、以上のようなメディアの役割付けは、メディアの常識的、日常的な機能に関するものである。非-常識的、非-日常的な機能、すなわち、芸術のためのメディアの機能に関しては、役割付けは大きく様変りする。
複数のメディアが適切に組み合わされ、相乗効果を生み、新しい表現能力を持つようになる。マルチメディアは、コンピュータ上にメディアの新しい組み合わせ方、融合の仕方を提案する。バーチャルリアリティのような、映像、音響、身体行為、そして、言語と巾広いメディアを組み合わせ、統合化するメディアも登場する。これは全く新しい展開ヘの可能性を秘めたメディアである。
言語メディアの役割 メディアには、それぞれにメディア本来の役割がある。言語メディアには、言語メディア本来の役割がある。言語メディアは、世界を切り分け、不必要な部分を捨て去り、記号として世界を表現する。これを、世界を分節化し、記号化するという。この分節化と記号化の威力によって、言語メディアは、他のメディアが持つことの出来ない表現能力を持つことになる。
① 一般的な概念を表現することが出来る。 「花」によって<花というもの>、「上」によって<位置的に上であるということ>について語ることが出来る。何を<花というもの>に含めるか、境界は曖昧である。しかし、<花というもの>が現実に存在するかのように語ることが出来る。 ② 抽象的な概念を表現することが出来る。 「自由」、「平等」、「平和」、近ごろはあまり聞かれなくなった言葉であるが、これらの言葉によって<自由であること>、<平等であること>、<平和であること>について語ることが出来る。これらは、正確には、人間の観念の中に存在するだけである。
③ 否定を表現することが出来る。 「何も見えない。何も聞こえない。」というように<存在しないということ>、<起こらないということ>について語ることが出来る。見えないもの、見えないということを絵に描くことは出来ない。聞こえない音、聞こえないということを音として聞かせることは出来ない。 ④ 時間や場所、状況を自由に設定し、語ることが出来る。 「昔々、ある所に、・・・・・・」、「1863年12月23日、ロンドンのとある街角で、・・・・・・」、「100年後の地球上では、・・・・・・」、「明日、昨日大学のブックストアで買った本を持ってくる。」、などなどである。時間や場所に対する分節化、記号化の威力である。
⑤ 語ることを生み出す精神の内面や論理の筋道を語ることが出来る。 「・・・・・・が正しいと思ったから、・・・・・・を信じた。」、「君は信じないと思うが、僕は、ぜひとも・・・・・・したかった。」「・・・・・・ということを正しいとすれば、・・・・・・という結論が導ける。しかし、かからずしも正しいとは言えないならば、・・・・・・と考えざるおえない。」などなどである。語ること自体を対象に、思考、意志、感情、感覚の有り様を表現出来る。 ⑥ 語っている状況について語ることが出来る。 「・・・・・・と誰が、何時、何処で言ったのか教えて下さい。」、「・・・・・・と彼はいってはいるが、苦し紛れだね。」、「・・・・・・という世の中の風潮は、実に嘆かわしい。」などなどである。いかなるものをも対象にすることが出来る記号の威力である。この威力によってパラドックスを表現することも出来る。
「言葉に言い表せない驚き」は言葉で表現できているのは何故か ⑦ 自身について語ることが出来る。 「・・・・・・という文は、習慣を表わす現在完了形である。」、「日本語では、述語は文の最後にくる。」、「英語の文は、主部のあとに述部が続く構造を持つ。」などなどである。自分自身をも対象に出来る記号の威力である。 「絵にも描けない美しさ」を絵にかけるか 「言葉に言い表せない驚き」は言葉で表現できているのは何故か
コンテンツを構成する役割 ドキュメント 書籍 新聞 Webページ PowerPointスライド ドキュメントの構造 事典と物語
システムの中での役割 最大の課題 インターネット上の膨大な情報を有効に利用できるようにすること テキスト処理による情報の組織化技術 情報が膨大になり検索サイトだけでは追いつけなくなった 情報のほとんどがテキストの形式である 情報が外国語で記述され、ほとんどが英語で記述されている 誰もが発信できる テキスト処理による情報の組織化技術 テキストの翻訳技術
情報の組織化技術 情報を整理する技術 選別 分類 抽出 要約
選別 必要な情報を残し、不要な情報を捨てること、情報の取捨選択を行うこと いつ選別するのか 情報が必要とされる時点での選別:検索 情報が得られた時点での選別:フィルタリング
検索 情報検索、文献検索 マルチメディア検索、画像検索、映像検索 文献検索 目次による検索 → 分類を用いた検索 目次による検索 → 分類を用いた検索 索引による検索 → キーワード検索 通読による検索 → 全文検索
テキスト検索システム 出来るだけ探したいことを表現した質問をそのままの形で受け付け、出来るだけ広範囲のテキストを出来るだけ速く探し、出来るだけ精度の高い結果を出してくれるのが良い検索システム 検索質問形式と照合 検索対象と蓄積形式 検索精度
検索システムの評価 再現率(recall) <再現率>=<検索された該当テキストの数>/ <全テキスト中の該当テキストの数> <全テキスト中の該当テキストの数> 適合率(precision) <適合率>=<検索された該当テキストの数>/ <検索されたテキストの数> 再現率、適合率ともに1に近づくのが望ましい。実際にはトレードオフの関係となる
フィルタリング(filtering) プロファイル(profile):選別指定情報 サンプル文書からの自動生成 プロファイルの更新
分類 2つ以上のグループに分割する 分類の種類 カテゴリ付与:与えられた分類体系に沿ってテキストを整理する (選別は2つのグループに分割する) 分類の種類 カテゴリ付与:与えられた分類体系に沿ってテキストを整理する テキストクラスタリング:似たようなテキストをグループ化する
抽出 中心的な情報だけを抽出することを主題情報の抽出、あるいは、情報抽出(information extraction)と呼ぶ テキストの特徴を利用し、文パターン、文章パターンを取り出し、照合する。テキスト理解にならないようにする。
要約 抽出した情報をテキスト(要約文章)の形に表現 本来の要約は、理解→再構成→文章生成 「テキストの理解」を「重要な部分の同定」で近似する 「テキストの中から重要な部分だけを残し、その他の部分を削除することによって要約を作成する」
重要な部分の同定 テキストの構造を利用する 文の重要度を計算し、重要度の高い文だけを残す 重要度の計算に使われる特徴 論文の「結論」の最初の文章を抜き出す 文の重要度を計算し、重要度の高い文だけを残す 重要度の計算に使われる特徴 キーワードの出現回数 特定の表現パターンの存在 時制(過去、現在) 文のタイプ(主張、推測、事実など) 前文との接続関係(理由、例示など)[「例えば」で始まる文は省く] 文章中の位置 段落中の位置[最初の文は重要]
アノテーション より精度の高い内容の把握 コンピュータのテキスト理解を助けるアノテーション 「ユーザが求める情報を提供する」から 「ユーザが求める情報を、ユーザが求める観点から、ユーザが求める詳細度で提供する」へ
翻訳 質問 日本語ワープロにおけるカナ漢字変換はカナ文字言語から漢字カナ交じり言語への機械翻訳のシステムとみなすことが出来る。この機械翻訳が成功した理由は何ですか。設けられた仕組で特筆すべきものをあげなさい。 通常の日本人(日本語を母語とし、英語を外国語として学習した者)が機械翻訳ソフトを利用する場合、日英翻訳機能と英日翻訳機能での使用上の違いを述べなさい。
言語処理ソフト・データ いろいろなソフトやデータがいろいろな形態で利用できる 研究開発用ソフトやデータ 市販のパッケージソフト いろいろなソフトやデータがいろいろな形態で利用できる 研究開発用ソフトやデータ 市販のパッケージソフト 市販のアプリケーションソフト インターネット上のサービス(有料、無料)
日本語の変遷とグローバルコミュニケーション 言語コミュニケーション 日本語の変遷とグローバルコミュニケーション 近代以降、日本語の有り様が大きく問われたことが三度ある。明治維新時、太平洋戦争後、そして、1980年代以降のグローバル化とIT化の時である。 GlobishとPlain Language Globish:フランス人であるジャン=ポール・ネリエールによって提唱された英語をベースにデザインされた世界共通言語 Plain Language:米国政府が進めているPlain Language(分かりやすい言葉)、あるいは、Plain Writing(分かりやすい書き方)と呼ばれる政府文書の平易化活動
日本人が持つべき言語能力について論じてみよう 日本語能力はどうあるべきか 英語能力はどうあるべきか 他の外国語(例えば、中国語)に対する能力はどうあるべきか 共通に持つべき能力と個性に応じて持つべき能力 グローバリゼーションの行く末
期末試験 8月6日(火)12:30~(60分間):研A302 持込不可 各人、掲示板を確認すること