ことばとコンピュータ 2007年度1学期 第13回
本日の内容 コンピュータで何ができるかを知る 機械翻訳 人の意見を調査する ブログを使ったマーケティング支援 物語をあじわう試み
機械翻訳とは?(1) Aという言語からBという言語への 「等価」な置き換え
機械翻訳とは?(2) Aという言語からBという言語への 「等価」な置き換え 等価とは?
機械翻訳とは?(3) 等価性 3タイプ Aという言語からBという言語への 「等価」な置き換え (1) 単語と構造の等価性 ...逐語訳的 「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学)
機械翻訳とは?(4) 等価性 3タイプ Aという言語からBという言語への 「等価」な置き換え (1) 単語と構造の等価性 ...逐語訳的 「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) 表層,形式的 言葉の対応以上のものが必要
機械翻訳とは?(5) (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... 高度な意訳や創造的な訳(文学) 現在の機械翻訳は →(1)が基本.(2)へは挑戦.(3)はまだ無理.
機械翻訳とは?(6) (1)でも結構役立つ...対象を限定すれば. 技術系の文章,科学論文,マニュアル等がよく対象として選ばれる (1)のレベルでも比較的理解できそうな対象といえる 処理ドメイン(分野)が限られており,語義の曖昧性も比較的少ない.
どうやる機械翻訳(1) 現在の商用システムのほとんどは 構文トランスファー方式 ○文を単語に切って品詞を決める ○文の構造を決める △文中の単語の意味を決める ×照応詞が何を指しているかを推測する ×文章のトピックを推測する
どうやる機械翻訳(2)
どうやる機械翻訳(3) ①文を単語に切って品詞を決める(形態素解析) 機械が文書を翻訳する. 機械(名詞)/が(助詞)/文書(名詞)/を(助詞)/翻訳する(翻訳する:動詞・基本形)/.(句点) 活用変化があればその情報も解析する 例:「翻訳した」→ 「翻訳し(翻訳する:動詞・連用形」+「た(た:助動詞・終止形)」
どうやる機械翻訳(4) ②文の構造を決める: 構文構造を解析 規則1 文=主部+述部 規則2 主部=名詞句+助詞 規則3 述部=動詞句 規則4 名詞句=名詞 規則5 動詞句=動詞 規則6 動詞句=名詞句+動詞句 ②文の構造を決める: 構文構造を解析 文法規則に基づき, 文の構造を解析 実際のシステムは, 数千から数万の規則 文の構造と,各単語 の品詞が決定する
どうやる機械翻訳(5) ②構文解析処理: 名詞句 名詞句 動詞句 名詞 助詞 名詞 助詞 動詞 文 主部 述部 動詞句 文 主部 述部 動詞句 名詞句 名詞句 動詞句 名詞 助詞 名詞 助詞 動詞 機械 が 文書 を 翻訳する
どうやる機械翻訳(6) ③単語の意味を決める(意味解析処理) 語の意味を決める(辞書から選ぶ) 文内の語の意味的関係を決める 翻訳する 翻訳する 動作主 対象物 機械 文書
どうやる機械翻訳(7) translate 結局~になる 自動詞 翻訳する 他動詞 ③意味解析処理(その他) 移動させる 他動詞 語の意味を決める (辞書から選ぶ) 例:I translate Japanese into English. translateの意味は? translateに格フレーム を用意して,対応する格の意味を定義する 格の形から自動詞,他動詞 名詞から意味を推測 translate 結局~になる 自動詞 翻訳する 他動詞 移動させる 他動詞 ...
どうやる機械翻訳(8) ④構文(構造)変換処理:構文transfer 元言語の構文構造をターゲット言語の構造に構文変換 翻訳する translate 動作主 対象 subject object 機械 文書 computer document
どうやる機械翻訳(9) ⑤構文生成処理 解析例: (ここでは単語は基本形) 機械 が 文書 を 翻訳する 名詞 助詞 名詞 助詞 動詞 解析例: (ここでは単語は基本形) 機械 が 文書 を 翻訳する 名詞 助詞 名詞 助詞 動詞 a computer translate a document 冠詞 名詞 動詞 冠詞 名詞 単数 現在 単数
どうやる機械翻訳(10) ⑥単語の生成(形態素生成処理) ⑤の結果 a computer translate a document 前後のつながり,時制,数などにより単語を変化させて,訳文を生成する A computer translates a document
どうやる機械翻訳(11)補足 ④のその他:構文(構造)変換処理 例:The news made me disappointed. 自然な訳文生成のために,主語や目的語を変換 例:The news made me disappointed. 主語 目的語 (無生物主語) 「そのニュースが私をがっかりさせた」 このままだと日本語にはなじまない →人間(me)が主語になるように構文を変換する 「私はそのニュースでがっかりした」
どうやる機械翻訳(12)補足 ⑤のその他:構文生成処理 変換した構造から語順を決定する (必要ならば)冗長な語を削除する 例:修飾語句は日本語では修飾語・非修飾語だが,英語では語によって語順が変わる 高価な本→ an expensive book 歴史の本→ a book on history 私が買った本→ the book which I bought (必要ならば)冗長な語を削除する I have a book in my hand. 私は私の手に本を持っている.(このままでは冗長) →例:「主語と共通の代名詞を削除する」などする
どうやる機械翻訳(13)補足 ⑥のその他:形態素生成処理 前後のつながり,時制,数などにより単語を変化させて,訳文を生成する 日本語:前後のつながりで単語を変化させる 私 が 買う た 本 → 私が買った本 英語:名詞の複数変化,動詞の時制変化,形容詞の比較級などの処理をする the book which I buy 冠詞 名詞 関係代名詞 代名詞 動詞 単数 目的格 主格 過去 → the book which I bought
人の意見を調査する Webの記述に注目 人の意見とは? 特に最近はblogを情報源とした研究が増加 多くの人が,何にどんな感想を持っているか?(製品や出来事の評価など) 多くの人がどんな体験をしているか(体験談)
blogとは? Weblog 略して blog (ブログ) アメリカ: 日本: 他サイトをリンク,コメントをつけて紹介 1999年blogger blogコミュニティが拡大 日本: Web日記は昔からある(1995頃にはリンク) blogとしては2000,2001年あたり 普及は2003年以降
blogの特徴 更新頻度が高い 個人の意見が多い 大量にある Webページよりも更新される頻度が高い 日記的な記述には,物事に対する意見が表出 大量にある ちりも積もれば山となる 1人1人の意見の集約が興味深いデータになる
blogを対象とした研究(サービス) blogの検索サービス 国内外を問わず大量に存在 中身はそれほど違わない 検索サービスに付加価値をつけて提供 分析つき
blogを対象とした研究(サービス)(2) 多くの人が,何にどんな感想を持っているか? (製品や出来事の評価など) 分析(例:blogWatcher) 話題の盛り上がり具合 評判情報(ポジティブ,ネガティブ) 性別 比較の対象(バーサス) 行動分析 関連記事
例:評判情報 キーワードがblog中でどのように評価されているか ネガティブかポジティブか? 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか?
例:評判情報(2) キーワードがblog中でどのように評価されているか ネガティブかポジティブか? 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか? A: それだけでは,決められない
例:評判情報(3) 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか? A: それだけでは,決められない このノートパソコンの画面が大きい → O このノートパソコンのファンの音が大きい → × これが考え方の基本
例:評判情報(4) 程度表現を加えることもある 「すごく」「とても」「少し」「やや」「かなり」など このノートパソコンの画面が大きい → O このノートパソコンのファンの音が大きい → ×
例:評判情報(5) 評判情報を例に考えても,実際の文では 照応,省略が頻繁に起きる 1つの文でまとまっているとは限らない. 例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた.思っていたよりも画面が大きかった.値段もそんなに高くないし,見た目もスマート.ただ,ファンの音が気になった.前の機種に比べると大きいと思う.
例:評判情報(6) 評判情報を例に考えても,実際の文では 照応,省略が頻繁に起きる 1つの文でまとまっているとは限らない. 例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた.思っていたよりも画面が大きかった.値段もそんなに高くないし,見た目もスマート. ただ,ファンの音はねぇ.前の機種に比べると大きいと思う. 対象物はタイトルにだけ出現 複数文に分かれて表現されている
例:評判情報(7) 例:ノートパソコンA この間,ヨドバシカメラで(ノートパソコンAを)見かけたので触ってみた.思っていたよりも(ノートパソコンAの)画面が大きかった. (ノートパソコンAの)値段もそんなに高くないし, (ノートパソコンAの)見た目もスマート. ただ, (ノートパソコンAの)ファンの音はねぇ.前の機種に比べると(ノートパソコンAの)(ファンの音は)大きいと思う. 照応や省略の先行詞を決める技術が必要
例:評判情報(8) タイトル内の名詞に対象が含まれている(可能性がある) 3つ組みでいうと,対象の属性は~だ.の形が想定できるので,そのような形にしてもおかしくない組み合わせを作成する. 対象の属性は~だ. 個別の組み合わせについて,ポジティブかネガティブかを記した評価辞書を用意する
その他:話題の盛り上がり具合 ブログでの出現頻度から推測 話題になっていれば,その物事に対する記述が増えるはず 時系列で考えていくことで,頻度の推移から盛り上がりが推測可能 例:イナバウワー
その他:男女推定 ブログの書き手が男性か女性か? 何の意味がある? 文体から推定(役割語,文末の形とか) 単語から推定 あるモノに対する女性による評価 あるモノに対する男性による評価 マーケティングなどで利用可能
その他:行動分析 ブログの著者がどんな行動パターンを持つか 何のために? 日記的文章であるということは... いつ,どこで,何をした などという記述が多い →時系列に並べれば,行動パターンもわかる. 何のために? データマイニング(相関ルール)への応用 元祖:紙おむつとビールの売れ行き(バスケットアナリシス) 興味を持つ話題と行動の相関
物語を味わう試み コンピュータに物語を味わわせてみたい 人は,小説などを読むと,ハラハラどきどき,悲しくなったり,楽しくなったり なぜ?どこに反応? 記述内容から場面を思い浮かべたり,感情に反応したりするから ここを視覚的に表現する試み