テキスト読解の困難さに関する定量的分析 ―小・中学校の理科教科書を事例として― 新井 庭子・分寺 杏介(東大院),松崎 拓也(名大),影浦 峡(東大院) Research Question 中学校の教科書は小学校の教科書より難しい?どこが難しい? 「小・中ギャップ」の原因を教科書テキストから探る 概要 小・中学校の理科教科書を題材として、そこにどのような量的・質的なギャップがあるかを分析した.また、読みを困難にするテキストのパラメーターを予測し,小・中教科書テキストの間にそのパラメーターで表現できるギャップがあることを示した上で,読解能力テスト(Reading Skill Test; RST)(Arai, et al., 2017)1 の結果を用いてそのギャップが実際に人にとっての困難につながるかどうかを確認した(新井ほか,2017,投稿中)2. 中 分析手法 分析対象:東京書籍小学校5,6年生の理科教科書,中学校1,2年生の科学教科書の本文テキストそれぞれ1069, 1217, 1171, 1293文(語単位の分析は見出語なども含む) . 分析の視点: 伝統的パラメータ:関連研究でも扱われてきたテキストの難しさを測る指標,単語親密度,係り受けの数・距離の平均・ツリー構造の深さに着目した. 新規パラメータ:定義表現と分類表現を採用し,分析を行った. 定義表現:概念の適用範囲の集合を確定し,概念が適用される対象に共通する性質を明らかにするような表現のこと. 分類表現:分類のために用いられる表現のこと. 例: 種子植物は,子房が胚珠に包まれている被子植物とむき出しになっている裸子植物に分類できる 分析結果 伝統的パラメータ テキストの形式的複雑さの分析:表1 RSTの結果を用いた検討: パラメータによる重回帰分析の結果,どれも説明変数として有意ではない 効果量f 2も非常に小さい値 新規パラメータ 定義・分類表現ともに大きな小・中ギャップあり. RSTで,正答率がランダムに選択肢を選んだよりも良くはない生徒(以下,ランダム解答)の割合を検討: 定義を理解するのは単なる文構造の把握より困難だとわかった(新井ほか2017, 採択済み)3.(表2) ページごとの異なり語数と定義表現の数 定義表現の増加は単に語彙の増加によるものか?→NO. 分類表現はサンプル数の小ささのため省略 小学校では中学に比べ定義を与えられた語の割合が小さい.(表3) 小学校:主に定義を必要としない具体的事物(例えば,イチゴ,メダカなど) 中学校:定義を必要とする抽象的な概念(例えば,比例,延性など)に関する記述が急激に増加 定義表現の数の増加: 教科書テキストの記述される概念がより抽象的に さらに知識体系を構成するための作業が学年とともに厳密になり,複雑化している. 小 定義表現4つ 物が水にとけた液のことを、水よう液といいます。 砂糖を水にとかすと、砂糖水ができる。この場合、砂糖のように、とけている物質を溶質といい、水のように、溶質をとかす液体を溶媒という。溶質が溶媒にとけた液全体を溶液という。溶媒が水である溶液を水溶液という。 定義表現1つ 表1:単語親密度と係り受け(距離の平均) 小・中間の差 平均値差 t値 調整p値 効果量(r) 小6 – 小5(単語親密度) -0.013 0.80 .854 -0.01 中1 – 小6(単語親密度) -0.102 6.12 <.001 -0.08 中2 – 中1(単語親密度) 0.005 0.26 .994 0.00 小6 – 小5 0.063 2.73 .031 0.06 中1 – 小6 0.304 13.46 0.27 中2 – 中1 0.014 0.61 .929 0.01 表2:RST項目別ランダム解答の割合(中・高) 表3:ページごとの異なり語数と定義表現の数 ランダム解答の割合(中・高) 係り受け関係認識問題 32% 照応関係認識問題 33% 具体例問題 51% 異なり語数/ページ数 定義表現の数/ページ数 小5 9.58 0.13 小6 8.44 0.17 中1 7.15 0.54 中2 7.27 0.89 結論 小中の理科教科書を比較: 本研究のパラメータのうち,突出して増加しているのは新規パラメータの定義と分類の表現の数である. 伝統的パラメータはRSTでの困難度と比較すると,「読みの困難度」に大きく影響するようには見えない. 定義や分類表現の導入により,抽象的な概念の記述の増加と記述の厳密性の向上があると考えられる. 1:Arai, N.H., Todo, N., Arai, T., Bunji, K., Sugawara, S., Inuzuka, M., Matsuzaki, T. and Ozaki, K.: Reading Skill Test to Diagnose Basic Language Skills in Comparison to Machines, to appear in CogSci 2017. 2:新井 庭子・分寺 杏介・石原 侑樹・松崎 拓也・影浦 峡(2017,投稿中)「テキストの読みを困難にする特徴の計量分析—小・中理科教科書を対象として−」 3:新井 紀子・尾崎 幸謙(2017, 採択済み)「なぜ高校生は『意味を理解しないAI』に敗れたか?−リーディングスキルテストの結果から−」『情報処理学会誌』