Download presentation
Presentation is loading. Please wait.
1
ことばとコンピュータ 2007年度1学期 第13回
2
本日の内容 コンピュータで何ができるかを知る 機械翻訳 人の意見を調査する ブログを使ったマーケティング支援 物語をあじわう試み
3
機械翻訳とは?(1) Aという言語からBという言語への 「等価」な置き換え
4
機械翻訳とは?(2) Aという言語からBという言語への 「等価」な置き換え 等価とは?
5
機械翻訳とは?(3) 等価性 3タイプ Aという言語からBという言語への 「等価」な置き換え (1) 単語と構造の等価性 ...逐語訳的
「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学)
6
機械翻訳とは?(4) 等価性 3タイプ Aという言語からBという言語への 「等価」な置き換え (1) 単語と構造の等価性 ...逐語訳的
「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) 表層,形式的 言葉の対応以上のものが必要
7
機械翻訳とは?(5) (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ...
(1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) 現在の機械翻訳は →(1)が基本.(2)へは挑戦.(3)はまだ無理.
8
機械翻訳とは?(6) (1)でも結構役立つ...対象を限定すれば. 技術系の文章,科学論文,マニュアル等がよく対象として選ばれる
(1)のレベルでも比較的理解できそうな対象といえる 処理ドメイン(分野)が限られており,語義の曖昧性も比較的少ない.
9
どうやる機械翻訳(1) 現在の商用システムのほとんどは 構文トランスファー方式 ○文を単語に切って品詞を決める ○文の構造を決める
△文中の単語の意味を決める ×照応詞が何を指しているかを推測する ×文章のトピックを推測する
10
どうやる機械翻訳(2)
11
どうやる機械翻訳(3) ①文を単語に切って品詞を決める(形態素解析) 機械が文書を翻訳する.
機械(名詞)/が(助詞)/文書(名詞)/を(助詞)/翻訳する(翻訳する:動詞・基本形)/.(句点) 活用変化があればその情報も解析する 例:「翻訳した」→ 「翻訳し(翻訳する:動詞・連用形」+「た(た:助動詞・終止形)」
12
どうやる機械翻訳(4) ②文の構造を決める: 構文構造を解析 規則1 文=主部+述部 規則2 主部=名詞句+助詞 規則3 述部=動詞句
規則4 名詞句=名詞 規則5 動詞句=動詞 規則6 動詞句=名詞句+動詞句 ②文の構造を決める: 構文構造を解析 文法規則に基づき, 文の構造を解析 実際のシステムは, 数千から数万の規則 文の構造と,各単語 の品詞が決定する
13
どうやる機械翻訳(5) ②構文解析処理: 名詞句 名詞句 動詞句 名詞 助詞 名詞 助詞 動詞 文 主部 述部 動詞句
文 主部 述部 動詞句 名詞句 名詞句 動詞句 名詞 助詞 名詞 助詞 動詞 機械 が 文書 を 翻訳する
14
どうやる機械翻訳(6) ③単語の意味を決める(意味解析処理) 語の意味を決める(辞書から選ぶ) 文内の語の意味的関係を決める 翻訳する
翻訳する 動作主 対象物 機械 文書
15
どうやる機械翻訳(7) translate 結局~になる 自動詞 翻訳する 他動詞 ③意味解析処理(その他) 移動させる 他動詞
語の意味を決める (辞書から選ぶ) 例:I translate Japanese into English. translateの意味は? translateに格フレーム を用意して,対応する格の意味を定義する 格の形から自動詞,他動詞 名詞から意味を推測 translate 結局~になる 自動詞 翻訳する 他動詞 移動させる 他動詞 ...
16
どうやる機械翻訳(8) ④構文(構造)変換処理:構文transfer 元言語の構文構造をターゲット言語の構造に構文変換
翻訳する translate 動作主 対象 subject object 機械 文書 computer document
17
どうやる機械翻訳(9) ⑤構文生成処理 解析例: (ここでは単語は基本形) 機械 が 文書 を 翻訳する 名詞 助詞 名詞 助詞 動詞
解析例: (ここでは単語は基本形) 機械 が 文書 を 翻訳する 名詞 助詞 名詞 助詞 動詞 a computer translate a document 冠詞 名詞 動詞 冠詞 名詞 単数 現在 単数
18
どうやる機械翻訳(10) ⑥単語の生成(形態素生成処理) ⑤の結果 a computer translate a document
前後のつながり,時制,数などにより単語を変化させて,訳文を生成する A computer translates a document
19
どうやる機械翻訳(11)補足 ④のその他:構文(構造)変換処理 例:The news made me disappointed.
自然な訳文生成のために,主語や目的語を変換 例:The news made me disappointed. 主語 目的語 (無生物主語) 「そのニュースが私をがっかりさせた」 このままだと日本語にはなじまない →人間(me)が主語になるように構文を変換する 「私はそのニュースでがっかりした」
20
どうやる機械翻訳(12)補足 ⑤のその他:構文生成処理 変換した構造から語順を決定する (必要ならば)冗長な語を削除する
例:修飾語句は日本語では修飾語・非修飾語だが,英語では語によって語順が変わる 高価な本→ an expensive book 歴史の本→ a book on history 私が買った本→ the book which I bought (必要ならば)冗長な語を削除する I have a book in my hand. 私は私の手に本を持っている.(このままでは冗長) →例:「主語と共通の代名詞を削除する」などする
21
どうやる機械翻訳(13)補足 ⑥のその他:形態素生成処理 前後のつながり,時制,数などにより単語を変化させて,訳文を生成する
日本語:前後のつながりで単語を変化させる 私 が 買う た 本 → 私が買った本 英語:名詞の複数変化,動詞の時制変化,形容詞の比較級などの処理をする the book which I buy 冠詞 名詞 関係代名詞 代名詞 動詞 単数 目的格 主格 過去 → the book which I bought
22
人の意見を調査する Webの記述に注目 人の意見とは? 特に最近はblogを情報源とした研究が増加
多くの人が,何にどんな感想を持っているか?(製品や出来事の評価など) 多くの人がどんな体験をしているか(体験談)
23
blogとは? Weblog 略して blog (ブログ) アメリカ: 日本: 他サイトをリンク,コメントをつけて紹介
1999年blogger blogコミュニティが拡大 日本: Web日記は昔からある(1995頃にはリンク) blogとしては2000,2001年あたり 普及は2003年以降
24
blogの特徴 更新頻度が高い 個人の意見が多い 大量にある Webページよりも更新される頻度が高い
日記的な記述には,物事に対する意見が表出 大量にある ちりも積もれば山となる 1人1人の意見の集約が興味深いデータになる
25
blogを対象とした研究(サービス) blogの検索サービス 国内外を問わず大量に存在 中身はそれほど違わない
検索サービスに付加価値をつけて提供 分析つき
26
blogを対象とした研究(サービス)(2)
多くの人が,何にどんな感想を持っているか? (製品や出来事の評価など) 分析(例:blogWatcher) 話題の盛り上がり具合 評判情報(ポジティブ,ネガティブ) 性別 比較の対象(バーサス) 行動分析 関連記事
27
例:評判情報 キーワードがblog中でどのように評価されているか ネガティブかポジティブか? 対象物,属性,評価語(表現)の3つ組み
Q:「大きい」は 評価語.では,ネガティブかポジティブか?
28
例:評判情報(2) キーワードがblog中でどのように評価されているか ネガティブかポジティブか? 対象物,属性,評価語(表現)の3つ組み
Q:「大きい」は 評価語.では,ネガティブかポジティブか? A: それだけでは,決められない
29
例:評判情報(3) 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか?
A: それだけでは,決められない このノートパソコンの画面が大きい → O このノートパソコンのファンの音が大きい → × これが考え方の基本
30
例:評判情報(4) 程度表現を加えることもある 「すごく」「とても」「少し」「やや」「かなり」など このノートパソコンの画面が大きい → O
このノートパソコンのファンの音が大きい → ×
31
例:評判情報(5) 評判情報を例に考えても,実際の文では 照応,省略が頻繁に起きる 1つの文でまとまっているとは限らない.
例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた.思っていたよりも画面が大きかった.値段もそんなに高くないし,見た目もスマート.ただ,ファンの音が気になった.前の機種に比べると大きいと思う.
32
例:評判情報(6) 評判情報を例に考えても,実際の文では 照応,省略が頻繁に起きる 1つの文でまとまっているとは限らない.
例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた.思っていたよりも画面が大きかった.値段もそんなに高くないし,見た目もスマート. ただ,ファンの音はねぇ.前の機種に比べると大きいと思う. 対象物はタイトルにだけ出現 複数文に分かれて表現されている
33
例:評判情報(7) 例:ノートパソコンA この間,ヨドバシカメラで(ノートパソコンAを)見かけたので触ってみた.思っていたよりも(ノートパソコンAの)画面が大きかった. (ノートパソコンAの)値段もそんなに高くないし, (ノートパソコンAの)見た目もスマート. ただ, (ノートパソコンAの)ファンの音はねぇ.前の機種に比べると(ノートパソコンAの)(ファンの音は)大きいと思う. 照応や省略の先行詞を決める技術が必要
34
例:評判情報(8) タイトル内の名詞に対象が含まれている(可能性がある)
3つ組みでいうと,対象の属性は~だ.の形が想定できるので,そのような形にしてもおかしくない組み合わせを作成する. 対象の属性は~だ. 個別の組み合わせについて,ポジティブかネガティブかを記した評価辞書を用意する
35
その他:話題の盛り上がり具合 ブログでの出現頻度から推測 話題になっていれば,その物事に対する記述が増えるはず
時系列で考えていくことで,頻度の推移から盛り上がりが推測可能 例:イナバウワー
36
その他:男女推定 ブログの書き手が男性か女性か? 何の意味がある? 文体から推定(役割語,文末の形とか) 単語から推定
あるモノに対する女性による評価 あるモノに対する男性による評価 マーケティングなどで利用可能
37
その他:行動分析 ブログの著者がどんな行動パターンを持つか 何のために? 日記的文章であるということは...
いつ,どこで,何をした などという記述が多い →時系列に並べれば,行動パターンもわかる. 何のために? データマイニング(相関ルール)への応用 元祖:紙おむつとビールの売れ行き(バスケットアナリシス) 興味を持つ話題と行動の相関
38
物語を味わう試み コンピュータに物語を味わわせてみたい 人は,小説などを読むと,ハラハラどきどき,悲しくなったり,楽しくなったり
なぜ?どこに反応? 記述内容から場面を思い浮かべたり,感情に反応したりするから ここを視覚的に表現する試み
Similar presentations
© 2024 slidesplayer.net Inc.
All rights reserved.