英作文支援システムの 構築に関する研究 平成 15 年 11 月 18 日 ( 火 ) A1 グループ M2 永易 稔 中間発表
背景と目的 国際化により英語文書を作成する機会が増加 機械翻訳システム と 例文提示型システム 英作文を支援するシステムが求められている 表現文が限定 正しい文が得られない 正確な文を参考可能 状況に応じたテンプレート 文の活用 英作文支援システム 英作文を支援する環境の構築
英作文支援システム 例文提示 対訳例文 コーパス EDR 電子辞書 I live in Kobe. 私は神戸に住んでいます。 I live in KAKOGAWA. 加古川に住んでいます。 辞書 入出力部 キーワード抽出スコア計算 入力:私は徳島に住んでいます。 SF の抽出 … 例文選択 出力: I live in Tokushima. 名詞を対応付けて表示 [I] live in [Kobe]. [ 私 ] は [ 神戸 ] に住んでいます。 例文編集 英文訂正 徳島
検索キーワードの抽出手順 入力文を形態素解析して文節分け 英語 _ を / 話す / こと _ は / 容易 _ で _ ない 文節末の形態素の品詞が助詞ならば削除 英語 / 話す / こと / 容易でない 漢字かなまじり文をひらがなに変換 えいご / はなす / こと / よういでない 頻出キーワードを除去 えいご / はなす / よういでない ( 入力文 ) 英語を話すことは容易でない
対訳例文コーパスの検索 検索キーワードと一致する対訳例文コー パスを検索し,スコアを計算 keywordlengthverbindexfrequency えいご 3false2/12/34/1243/125…1507 はなす 3true2/34/1243/2342/3…586 よういでな い 6false1243/43234/2423…3 表: 検索キーワードの Index 参照テーブル
例文編集機能 [ 私 ] は [ 京都 ] に住みたいと思っている. [I] want to live in [Kyoto]. (例) SF で対応づけ したコーパス 日本文を編集して書き換えることで,対応する英文を システムが自動的に変更 (目標) SF で対応づけしたコーパスを用いた名詞単語の置換 最も,置き換えられやすい名詞に着目 東京 Tokyo
名詞部分の対応づけ 英文は単語の語形変化の部分を取り去る 日本文と英文を形態素解析,文節分けして名詞を抽出 日本文の名詞の英語訳を検索 日本語 → Japanese, the Japanese language 使役構文 → × 注意 → attention, concentration 英単語訳の候補と英文と比較し,一致する箇所が存在し, かつ,品詞に名詞を含めば対応づけ (英文は単語の語形変化の部分を取り去る) (例) [ 日本語 ] の [ 使役構文 ] に [ 注意 ] を向けよう。 Note/VB the/DT causative/JJ construction/NN in/IN the/DT Japanese/JJ language/NN. sses → ss , ies → i ss → ss , s → φ
概念の検索 1. 名詞辞書から概念識別子を検索 テニス → 3c0388 バドミントン → 3bdb4f 2. 概念体系辞書から上位概念を検索 3c0388 (テニス) → 30f7db (球技の種目) → 30f7da (競技の種目) → 3f968b → 3bd4f (バドミントン) → 30f7db → 30f7da → 3f968b → 3. 一致する概念識別子が無い場合は,置き換えの際に 警告 [ 私 ] は [ 明日 ][ テニス ] をするつもりだ. バドミントン (例)
英文訂正機能 スペルチェック SpellChecker を利用 cheker ー choker , cheer , checker 文法チェック 冠詞 (a , the) のチェック 3 単元の -e(s) のチェック
英作文の対象は科学技術,政治経済,生 活・文化に関するものなど多様化 英作文の分野タスク,文書構成・内容構成 から対訳例文を分類 分野特有の言い回しを得る 状況に応じた対訳例文を得る 対訳例文コーパスの構築 対訳例文の精度の向上
論文 報告書 仕様書 メール・手紙文 英作文タスク 科学技術 医学 文学・歴史 導入・背景文 主題文ー目的 主題文ー手法説明 主題文ーその他 結果・評価文 考察・結論文 文書構成・内容構成 対訳例文コーパス
システム構築 開発環境: Windows XP Professional 開発言語: Java 2 SDK Version 開発ツール: Jbuilde9 Personal 解析ツール: Cabocha , Monty Tagger , KAKASI DB : Microsoft Access2000 対訳例文コーパス メール,論文で用いられる表現文 ‥‥ 約 3,000 文 EDR の対訳文 ・・・・ 約 17 万文 EDR 電子辞書 名詞辞書 ( 日英単語辞書から名詞単語のみを抽出 ) 概念体系辞書
現状と問題 英作文に参考となる表現文があまり得られな い 支援ツールの作成 実用的な例文の追加 (問題点 ) 分類したデータベースのテーブルを効率よく 検索するプログラムの作成 英文コーパスからの例文検索 データベースから読み込んだ分類ツリーを表示 文字の表示をカラフルに
今後の課題 対訳例文の追加 システムの評価 名詞単語の置換に対する動詞変化への対応 検索語の拡張 英文コーパスの活用
評価方法について 英作文支援ツールを用いて, 10 文前後の英作文をし て貰った後にアンケートを取り評価 対象者:大学生及び大学院生 英作文分野:論文,メール文 アンケート内容 有効な表現文が得られるか 名詞単語の置換機能について ツールの使用感,使いやすさ 用例の分量 システムの応答速度 意見,要望