CSJセミナー参加報告 北村・徳田研究室 中村和寛
日時・場所 日時 : 7月10日(土)13:30~17:00 場所 : 国立国語研究所(東京都)
道のり 名古屋 新幹線(2駅) 東京 山手線(9駅) 巣鴨 都営三田線(3駅) 板橋本町
高島屋のエレベータにて安全に集合
新幹線、遅れる…
速さに感動する
昼食と夕食の風景
噂の山手線
今回一番の収穫 都築さんに研究のことや研究室のことをいろいろ聞けたこと
セミナーの構成 『日本語話し言葉コーパスの概要』 XML文書についての解説 検索の実例
日本語話し言葉コーパスとは モノローグを中心とした、多少とも自発性を有する音声のデータベース サイズが大きい 研究用付加情報が非常に豊富 CSJ全体 752万語,661時間 コア 50万語44時間
一つの講演に対して提供されるデータ(全講演) 話者&講演情報 成年代、性別、出生地、転居暦、学歴、etc 転記テキスト 基本形(漢字と仮名) 発音形(片仮名のみ) 形態論情報 短単位と長単位(手解析と自動解析) 節単位情報(手解析と自動解析) 音声ファイル 16kHz,16bit,MS-RIFF 印象評定情報(単独評価)
一つの講演に対してさらに提供される データ(コア) 印象評定情報(集合評価) 係り受け構造情報 音声ラベル 文節音 イントネーション 重要文 談話境界(40ファイルのみ)
XMLによるCSJ各情報の記述 階層構造を基本としてXMLにて研究用付加情報が記述されている XSLTにより検索、構造変換ができる
その他 開発期間 : 5年 価格 学生 : 25000円 教授 : 50000円 企業 : 250000円
以上です。