良い定期テストとは……先生たちはテストづくりでどんな工夫をしているか

　テストの点数は、先生たちがコントロールすることができます。

　だからといって、先生たちは好き勝手にテストの問題をつくっているのではありません。

　定期テストが定期テストであるために、
　先生たちは、テスト作りでどんな工夫をしているのでしょうか。

1　妥当性と信頼性

　良いテストとは、「妥当性」と「信頼性」のあるテストです。

　「本当に測定したい力が測定できているか」が妥当性です。
　そして「状況に左右されない生徒の本来の力が測定できているか」が信頼性です。

　例えば自動車の速度を測るのに温度計は使いません。これが妥当性です。
　また壊れた速度計では意味がありません。これが信頼性です。

　ですからテストで「教えなかったこと」を出題したら妥当性がなくなりますし、
　テスト直前に問題が一部の生徒に洩れたら（洩らしたら）信頼性はなくなります。

　では、この二つについて、更に具体的に見てみましょう。

妥当性

　妥当性には3つの種類があります。

　内容が、調査したいことを含んでいるかどうか（内容的妥当性）
　自分で作ったテストと業者などの作ったテスト等の他のテストと照らし合わせ相関性が高いか（基準連関妥当性）
　問題に文章のジャンルとか測ろうとする領域とかに偏りがないか（構成概念妥当性）

　これらを満足させる問題を作ることは、とても難しいことなのです。

　内容的妥当性は、絶対評価を行おうとすると、とても作るのが難しくなります。
　数学や理科など、答えが単純になる問題ならばある程度はわかりますが、記述問題などは「基準」に対してどう答えれば基準をクリアしているのか、どの程度クリアしているのか、判定が難しいのです。

　基準関連妥当性は、業者のテストや他校の過去問をパクれば簡単ですが、そういうわけにはいきません。
　なぜなら相関性は、「相関性が高い」ものほど新しく問題を作る価値がなくなるからです。
　それ以前にパクリ問題は、いろんな意味でアウトです。
　それぞれの中学の過去問を教えている塾もあります。そうでなくても、市販のテスト問題を出したら、偶然それをやった生徒とそうでない生徒とでは得点に差が出てしまいます。
　あくまでもオリジナルな問題でありながら相関性が高い
　……超えなくてはならないハードルはとても高いのです。

　構成概念妥当性を増すために、範囲から満遍なく出題する、というのは常識でしょう。
　しかし、テスト範囲というものがあります。
　時間内に解くことができるようにするためには、問題数には限りがあります。
　限りある問題数に対し全ての範囲から満遍なく出題するのは難しいことです。

信頼性

　信頼性の目安となるものは、大きく分けて2つあります。

「同じ生徒に、同じ条件で同じテストをしたら、同じ点数になるか」（安定性）
「同じ生徒に、似たテストをした場合、同じような答えを出すか」（一貫性・等質性）

　実験的にこれを測定する方法があるようですが、実際にはできない相談です。

　そこで私は、下のようにしています。

クラスが異なる同じくらいの力をもつ生徒がテストを受けて、同じ点数になるような問題を作る。

　これは、テストそのものに対する“信頼性”というよりは、学校や教師に対する信頼性を担保するための措置です。

　「平均点の違いは教え方の違い」と考えがちですが、それは違います。
　経験から「平均点の違いは生徒の構成の違い」です。

　点数が極端に低い生徒が一人でもいれば、クラスの平均点なんか簡単に変わりますからね。
　よほど変な教え方でもしない限り、先生が違ったって生徒がとる点数にそんなに違いはありませんし、公教育なのですから違いが生ずるような指導をしてはいけません。

語尾や言い回し等、質問のしかたは入試問題準拠とし、その出題範囲に対する問題サンプルを可能な限り集めて問題を作る。

　入試問題準拠というのは、質問のしかたに誤解がないように…というよりも、入試問題に慣れさせるためです。
　問題サンプルを可能な限り集めるというのは、「平均顔は美人顔」と考えるためです。
ダウンロード (1)

平均顔
　「平均顔は美人顔」というのは、何十人分かの女性の顔の写真を重ね合わせると、万人受けする美人の顔になる、という心理学（の都市伝説？←出典が見当たりませんでした。誰か教えて下さい。）の考えです。

　これと同じで、1つの問題を作るために、最低5社以上の単元プリントや学習帳の問題を参考にします。
　これは「平均的な」問題を作るための措置です。（丸写しはしないよ。）

2　1対1対応と公平性

　良いテストとは、「安心して評価できる」という面も必要です。

　誰が見ても納得できる評価を下すためには、次のようなことが必要です。
　
1対1対応

　「1つの問いによって測定したい力は1つ」ということです。

　採点時の労力を考えると、答えも1つ…別解がないのが望ましいと思います。
　これは答え方を指定する等によって簡単にクリアできます。
　（例えば字数制限をかけるとか、使用する語彙を指定するとか…。）

　記述（論述）問題は1対1対応にはならないことがあります。
　同時に複数の力をみる場合があるからです。ダブルバーレル質問*1)の仲間だと思います。
　応用問題として位置づけられますが、ここ数年の入試問題でも配点が急激に高まっています。
　PISAや全国学調などでは「読解力」の仲間です。
　（「読解力」を取り扱うのは国語だけではないのです。）

　ですから、1年生から毎回定期テストに一定割合以上記述問題は出して、問題に慣れさせ得点力を高めていかなくてはいけません。

*1) 「ダブルバーレル質問」
　1つの質問のなかで2つの内容を問うこと。例えばアンケートで「このラーメンは麺がシコシコして美味しかったですか」というように、麺の食感が良かったかということと、美味しかったかという2つの内容について聞くようなケースを言う。この方式の質問はどちらの内容に答えて良いのか迷うため回答者にとって好ましくない。上記例の場合は正確な回答を得るためにも、「麵の食感は良かったですか」と「美味しかったですか」というように質問を2つに分けるべきだと考えられている。特に論述問題では、「文章を読んで、あなたはどう考えますか」ではなく、「要旨をまとめなさい」「要旨をふまえてあなたの考えを書きなさい」というように分割して出題するとよいでしょう。

公平性

　問題は公平でなくてはならない、ということです。
　つまり、同じ力（知識・思考力）を持っている生徒ならば同じくらいの点数が取れるのが公平なテストだ、ということです。

　選択肢問題などでまぐれ当たりを防止する意味に使われますが、もっと恐ろしいのは先生が公平性を失わせることです。

　例えばある単元を10時間かけて授業をしたクラスと7時間授業をしたクラスとでは、同じ先生が授業をしても、得点に差が出て当然です。私の経験では2～5点の差が開くように感じました。
　これは指導時数による公平性の喪失です。

　更に指導内容による公平性の喪失があります。
　例えば小学校の算数で、タイル算で有名な水道方式を教えられたクラスは、先生が替わったとたん点数が下がるということを聞いたことがあります。

　誰の、どの指導法が良い・悪いということはありません。
　指導法（教え方）は、素材と生徒との関係の中で千変万化するものです。
　そして、生徒を直接教える人しか教え方を決めることはできません。
　ですから指導法は教師個人の考えに任せられるべきで、決して統制をしてはいけないと思います。（ここは某国とは違うのですから。）

　そこで公平性を担保するために、
　どこの学校でも、指導内容や方法を教科内できちんと打ち合わせ、
　生徒に配布するプリント類はすべて共有していると思います。
　（ただし、他の先生の作ったプリントは使わない、配らない、ということもあります。それは、授業をする先生の自由なのです。）

　教科内の先生たち全員で授業やテストの均等化を図ろうとしているわけです。

　また、教材によっては、先生のよって軽重のかけ方に違いがでてしまうこともあります。
　これに対しても公平性は担保されなくてはいけません。

　そのために、単元に入る前に教科内で先生同士打ち合わせをしています。

　最近は、選択式問題をできるだけ設定しない傾向にあります。
　選択肢を全部「ア」と書いても一定割合で正解してしまうからです。

　それ以上に4択問題の場合、「ハズレ2、フェイク1、正解1」の割合で問題を作成することが多いですから消去法を使えば正解の確立を1/2以上にすることは簡単なことです。
　しかし消去法を身につけることは、本当に各教科が望む「学力」が身についたとは言えません。

　ですから、今後4択問題は減っていくと思います。