ことばとコンピュータ 2007年度1学期 第13回.

Slides:



Advertisements
Similar presentations
英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表.
Advertisements

自然言語処理 平成 24 年 11 月 5 日 (No5)- 東京工科大学 コンピュータサイエンス学部 亀田弘之.
電子書籍の検索機能の改善 木下研究室 201002713 鴫原 善寿. 背景 スマートフォンなどの携帯端末の普及と ともに電子書籍に注目が浴びた。中でも amazon の kindle など電子書籍の専用端末も 現れた。 電子書籍はデータなので本棚もいらず、 持ち運びも容易になるなど様々な恩恵を もたらした。
大規模コーパスから獲得した 名詞の出現パターンを用いた 事態名詞の項構造解析
自然言語処理:第3回 1.前回の確認 2.構文解析 3.格文法.
最大エントロピーモデルに基づく形態素解析と辞書による影響
Twitterの発言に基づくウェブページ推薦システム
コーパス言語学実践 2006年度2学期 第10回.
言語体系とコンピュータ 第5回.
Note for How to Write an English Paper (2014 Second Semester)
Java I 第2回 (4/18)
東京工科大学 コンピュータサイエンス学部 亀田弘之
国内線で新千歳空港を利用している航空会社はどこですか?
情報処理基礎 2006年 6月 1日.
知識情報演習Ⅲ(後半第1回) 辻 慶太(水)
情報学類 吉田光男 アドバイザー教官: 山本幹雄 先生
動詞 スライドショウを実行し、左クリック(一回)しながら読んでください。
言語体系とコンピュータ 第6回.
オンライン英単語・リスニング 学習ソフト 佐々木研究室 N02k1114 北隅 麻実.
連体修飾節 欧志豪 南台科技大学応日所院生.
授与動詞(あげる).
関係代名詞 目的格の関係代名詞.
一致の非対称の 極小理論的分析 小林 亜希子 島根大学 「言語と情報研究プロジェクト研究会:言語理論の動向を考える」 広島大学
情報とコンピュータ 静岡大学工学部 安藤和敏
東京工科大学 コンピュータサイエンス学部 亀田弘之
統率・束縛理論2.
テキストマイニング, データマイニングと 社会活動のトレース
世界の言語と日本語 主語と一致.
1.自然言語処理システム 2.単語と形態素 3.文節と係り受け
部分形態素解析を用いた コーパスの品詞体系変換
4Y-4 印象に残りやすい日本語パスワードの合成法
12月08日 構文解析 入力文(記号列)が与えられたとき,文法によってその文を解析し,その構造を明らかにする.
形態素解析および係り受け解析・主語を判別
主格3形式と客格と「は」 -主語と客語- [1-2] 日本語構造伝達文法 この項は『日本語構造伝達文法(05版)』の
自動車レビューにおける検索と分析 H208032 松岡 智也 H208060 中西 潤 H208082 松井泰介.
個体記述型・事態記述型・理由供給型の違いについて
動詞の共起パターンを用いた 動作性名詞の述語項構造解析
大規模時系列ウェブコーパスを用いた 新造語の盛衰のダイナミズムの分析
平成22年6月15日 図書系職員のための アプリケーション開発講習会
検索エンジンを利用した Covert Channelの検出
自然言語処理及び実習 第11回 形態素解析.
大規模データによる未知語処理を統合した頑健な統計的仮名漢字変換
関係代名詞 that.
識別子の命名支援を目的とした動詞-目的語関係の辞書構築
この項は 『日本語構造伝達文法(05版)』 の第30章,第31章の内容に基づいています。より詳しくはその章をお読みください。
東京大学OPAC Plus “言選Web” -関連学術用語による日本語文献情報への 簡易ナビゲーションシステム-
関係代名詞(接触節) 目的格の関係代名詞の省略.
自然言語処理2016 -平成28年11月7日・14日(No.6&7)-
類似度を用いた WWW のリンク構造の解析 谷 研究室    栗原 伸行.
東京工科大学 コンピュータサイエンス学部 亀田弘之
形態素解析ドライバモデルの実装と コーパスの品詞体系変換への応用
中京大学 情報理工学部 情報知能学科 H 中畑 淳貴 H 堀田 将克
日本語統語論:構造構築と意味 No.8 連体修飾
テキストマイニング, データマイニングと 社会活動のトレース
東京工科大学 コンピュータサイエンス学部 亀田弘之
東京工科大学 コンピュータサイエンス学部 亀田弘之
構造的類似性を持つ半構造化文書における頻度分析
データ工学特論 第六回 木村昌臣.
東京工科大学 コンピュータサイエンス学部 亀田弘之
自然言語処理2015 Natural Language Processing 2015
第7回 Q&A メール講座 Next Stage:翻訳力アップ自己トレ(1)
シソーラス情報を用いた童話文章登場人物の 感情情報読み取りシステム
コンパイラ 2012年10月11日
情報とコンピュータ 静岡大学工学部 安藤和敏
形態素解析と構文解析 金子邦彦.
自然言語処理2016 Natural Language Processing 2016
mi-8. 自然言語処理 人工知能を演習で学ぶシリーズ(8)
1.2 言語処理の諸観点 (1)言語処理の利用分野
東京工科大学 コンピュータサイエンス学部 亀田弘之
Elements of Style 第3回 2019年6月11日(火).
Presentation transcript:

ことばとコンピュータ 2007年度1学期 第13回

本日の内容 コンピュータで何ができるかを知る 機械翻訳 人の意見を調査する ブログを使ったマーケティング支援 物語をあじわう試み

機械翻訳とは?(1) Aという言語からBという言語への         「等価」な置き換え

機械翻訳とは?(2) Aという言語からBという言語への         「等価」な置き換え 等価とは?

機械翻訳とは?(3) 等価性 3タイプ Aという言語からBという言語への 「等価」な置き換え (1) 単語と構造の等価性 ...逐語訳的         「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性  ...意訳 (3) 効果の等価性 ...         高度な意訳や創造的な訳(文学)

機械翻訳とは?(4) 等価性 3タイプ Aという言語からBという言語への 「等価」な置き換え (1) 単語と構造の等価性 ...逐語訳的         「等価」な置き換え 等価性 3タイプ (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性  ...意訳 (3) 効果の等価性 ...         高度な意訳や創造的な訳(文学) 表層,形式的 言葉の対応以上のものが必要

機械翻訳とは?(5) (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性 ...意訳 (3) 効果の等価性 ... (1) 単語と構造の等価性 ...逐語訳的 (2) 意味内容の等価性  ...意訳 (3) 効果の等価性 ...         高度な意訳や創造的な訳(文学) 現在の機械翻訳は →(1)が基本.(2)へは挑戦.(3)はまだ無理.

機械翻訳とは?(6) (1)でも結構役立つ...対象を限定すれば. 技術系の文章,科学論文,マニュアル等がよく対象として選ばれる  (1)のレベルでも比較的理解できそうな対象といえる 処理ドメイン(分野)が限られており,語義の曖昧性も比較的少ない.

どうやる機械翻訳(1) 現在の商用システムのほとんどは 構文トランスファー方式 ○文を単語に切って品詞を決める ○文の構造を決める △文中の単語の意味を決める ×照応詞が何を指しているかを推測する ×文章のトピックを推測する

どうやる機械翻訳(2)  

どうやる機械翻訳(3) ①文を単語に切って品詞を決める(形態素解析) 機械が文書を翻訳する. 機械(名詞)/が(助詞)/文書(名詞)/を(助詞)/翻訳する(翻訳する:動詞・基本形)/.(句点) 活用変化があればその情報も解析する 例:「翻訳した」→ 「翻訳し(翻訳する:動詞・連用形」+「た(た:助動詞・終止形)」

どうやる機械翻訳(4) ②文の構造を決める: 構文構造を解析 規則1 文=主部+述部 規則2 主部=名詞句+助詞 規則3 述部=動詞句 規則4 名詞句=名詞 規則5 動詞句=動詞 規則6 動詞句=名詞句+動詞句 ②文の構造を決める: 構文構造を解析 文法規則に基づき,  文の構造を解析 実際のシステムは,  数千から数万の規則 文の構造と,各単語  の品詞が決定する

どうやる機械翻訳(5) ②構文解析処理: 名詞句 名詞句 動詞句 名詞 助詞 名詞 助詞 動詞 文 主部 述部 動詞句        文    主部    述部                         動詞句    名詞句   名詞句   動詞句  名詞 助詞 名詞  助詞   動詞  機械  が  文書   を  翻訳する

どうやる機械翻訳(6) ③単語の意味を決める(意味解析処理) 語の意味を決める(辞書から選ぶ) 文内の語の意味的関係を決める 翻訳する       翻訳する  動作主      対象物   機械       文書

どうやる機械翻訳(7) translate 結局~になる 自動詞 翻訳する 他動詞 ③意味解析処理(その他) 移動させる 他動詞 語の意味を決める  (辞書から選ぶ) 例:I translate Japanese into English. translateの意味は? translateに格フレーム  を用意して,対応する格の意味を定義する  格の形から自動詞,他動詞 名詞から意味を推測 translate 結局~になる 自動詞  翻訳する 他動詞  移動させる 他動詞   ...

どうやる機械翻訳(8) ④構文(構造)変換処理:構文transfer 元言語の構文構造をターゲット言語の構造に構文変換  翻訳する           translate 動作主  対象   subject object 機械  文書 computer document

どうやる機械翻訳(9) ⑤構文生成処理 解析例: (ここでは単語は基本形) 機械 が 文書 を 翻訳する 名詞 助詞 名詞 助詞 動詞 解析例: (ここでは単語は基本形) 機械  が  文書 を  翻訳する 名詞 助詞 名詞 助詞 動詞 a computer translate a document 冠詞 名詞  動詞 冠詞  名詞 単数   現在          単数

どうやる機械翻訳(10) ⑥単語の生成(形態素生成処理) ⑤の結果 a computer translate a document  前後のつながり,時制,数などにより単語を変化させて,訳文を生成する A computer translates a document

どうやる機械翻訳(11)補足 ④のその他:構文(構造)変換処理 例:The news made me disappointed. 自然な訳文生成のために,主語や目的語を変換 例:The news made  me   disappointed.     主語      目的語  (無生物主語)   「そのニュースが私をがっかりさせた」   このままだと日本語にはなじまない      →人間(me)が主語になるように構文を変換する   「私はそのニュースでがっかりした」

どうやる機械翻訳(12)補足 ⑤のその他:構文生成処理 変換した構造から語順を決定する (必要ならば)冗長な語を削除する 例:修飾語句は日本語では修飾語・非修飾語だが,英語では語によって語順が変わる 高価な本→ an expensive book 歴史の本→ a book on history 私が買った本→ the book which I bought (必要ならば)冗長な語を削除する I have a book in my hand. 私は私の手に本を持っている.(このままでは冗長) →例:「主語と共通の代名詞を削除する」などする

どうやる機械翻訳(13)補足 ⑥のその他:形態素生成処理 前後のつながり,時制,数などにより単語を変化させて,訳文を生成する    日本語:前後のつながりで単語を変化させる    私 が 買う た 本 → 私が買った本    英語:名詞の複数変化,動詞の時制変化,形容詞の比較級などの処理をする   the book which I buy 冠詞 名詞 関係代名詞 代名詞 動詞 単数   目的格   主格  過去 → the book which I bought

人の意見を調査する Webの記述に注目 人の意見とは? 特に最近はblogを情報源とした研究が増加 多くの人が,何にどんな感想を持っているか?(製品や出来事の評価など) 多くの人がどんな体験をしているか(体験談)

blogとは? Weblog 略して blog (ブログ) アメリカ: 日本: 他サイトをリンク,コメントをつけて紹介 1999年blogger blogコミュニティが拡大 日本: Web日記は昔からある(1995頃にはリンク) blogとしては2000,2001年あたり 普及は2003年以降

blogの特徴 更新頻度が高い 個人の意見が多い 大量にある Webページよりも更新される頻度が高い 日記的な記述には,物事に対する意見が表出 大量にある ちりも積もれば山となる 1人1人の意見の集約が興味深いデータになる

blogを対象とした研究(サービス) blogの検索サービス 国内外を問わず大量に存在 中身はそれほど違わない 検索サービスに付加価値をつけて提供 分析つき

blogを対象とした研究(サービス)(2) 多くの人が,何にどんな感想を持っているか? (製品や出来事の評価など) 分析(例:blogWatcher) 話題の盛り上がり具合 評判情報(ポジティブ,ネガティブ) 性別 比較の対象(バーサス) 行動分析 関連記事

例:評判情報 キーワードがblog中でどのように評価されているか ネガティブかポジティブか? 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか?

例:評判情報(2) キーワードがblog中でどのように評価されているか ネガティブかポジティブか? 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか? A: それだけでは,決められない

例:評判情報(3) 対象物,属性,評価語(表現)の3つ組み Q:「大きい」は 評価語.では,ネガティブかポジティブか? A: それだけでは,決められない このノートパソコンの画面が大きい    → O このノートパソコンのファンの音が大きい → × これが考え方の基本

例:評判情報(4) 程度表現を加えることもある 「すごく」「とても」「少し」「やや」「かなり」など このノートパソコンの画面が大きい → O このノートパソコンのファンの音が大きい → ×

例:評判情報(5) 評判情報を例に考えても,実際の文では 照応,省略が頻繁に起きる 1つの文でまとまっているとは限らない. 例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた.思っていたよりも画面が大きかった.値段もそんなに高くないし,見た目もスマート.ただ,ファンの音が気になった.前の機種に比べると大きいと思う.

例:評判情報(6) 評判情報を例に考えても,実際の文では 照応,省略が頻繁に起きる 1つの文でまとまっているとは限らない. 例:ノートパソコンA この間,ヨドバシカメラで見かけたので触ってみた.思っていたよりも画面が大きかった.値段もそんなに高くないし,見た目もスマート. ただ,ファンの音はねぇ.前の機種に比べると大きいと思う. 対象物はタイトルにだけ出現 複数文に分かれて表現されている

例:評判情報(7) 例:ノートパソコンA この間,ヨドバシカメラで(ノートパソコンAを)見かけたので触ってみた.思っていたよりも(ノートパソコンAの)画面が大きかった. (ノートパソコンAの)値段もそんなに高くないし, (ノートパソコンAの)見た目もスマート. ただ, (ノートパソコンAの)ファンの音はねぇ.前の機種に比べると(ノートパソコンAの)(ファンの音は)大きいと思う. 照応や省略の先行詞を決める技術が必要

例:評判情報(8) タイトル内の名詞に対象が含まれている(可能性がある) 3つ組みでいうと,対象の属性は~だ.の形が想定できるので,そのような形にしてもおかしくない組み合わせを作成する. 対象の属性は~だ. 個別の組み合わせについて,ポジティブかネガティブかを記した評価辞書を用意する

その他:話題の盛り上がり具合 ブログでの出現頻度から推測 話題になっていれば,その物事に対する記述が増えるはず 時系列で考えていくことで,頻度の推移から盛り上がりが推測可能 例:イナバウワー

その他:男女推定 ブログの書き手が男性か女性か? 何の意味がある? 文体から推定(役割語,文末の形とか) 単語から推定 あるモノに対する女性による評価 あるモノに対する男性による評価 マーケティングなどで利用可能

その他:行動分析 ブログの著者がどんな行動パターンを持つか 何のために? 日記的文章であるということは... いつ,どこで,何をした などという記述が多い →時系列に並べれば,行動パターンもわかる. 何のために? データマイニング(相関ルール)への応用 元祖:紙おむつとビールの売れ行き(バスケットアナリシス) 興味を持つ話題と行動の相関

物語を味わう試み コンピュータに物語を味わわせてみたい 人は,小説などを読むと,ハラハラどきどき,悲しくなったり,楽しくなったり なぜ?どこに反応? 記述内容から場面を思い浮かべたり,感情に反応したりするから ここを視覚的に表現する試み