みんなでプログラミングteaching site|学習ツール指導マニュアル|データの活用
みんなでプログラミング
0

Learning Tool Teaching Manual 学習ツール指導マニュアル

データの活用

動画①は導入のため学習ツール指導マニュアル無し

学年
高校生
  • 1
  • 2
  • 3

②情報システム

概要

あちこちで都度発生する様々なデータを収集し、必要な部分を必要とする場所に送り、役に立つ情報として処理するまでの仕組みを情報システムという。1対1のやり取りでは無く、集めたデータをそれぞれの場所に届けて総合的に利用することがポイントである。
どのようなデータを集めていて、それらがどのように伝わっていくかという流れを身近で体験しやすいコンビニエンスストアを例にとって、モーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

コンビニエンスストアを利用する客という立場では、商品と代金ぐらいしか意識していなかったかもしれないが、実際は販売が行われる時点で非常に多くの情報が収集され伝達されている。高校生であればコンビニエンスストアでアルバイトをした経験がある生徒もいるかもしれない。レジでの商品と代金の他に入力したデータがあれば、意見を言ってもらってもよいだろう。
ここでは説明されていないポイントカードによる付与・決済や、QRコード決済、酒類等の年齢制限商品販売時の確認データなど、学習後に例示以外に集められるデータを挙げさせてもよいだろう。

レジのバーコードリーダで読み取られた情報の詳細は情報の教科書に詳しいが、国、メーカー、商品名のみと考えればよく、他の情報である価格や天候、年代などの付加データと共に合わさって活用されることになる。大事なのはデータがどのように伝わっていくかという部分なので、しっかりと確認したい。
実はスマートフォンは常に近くの電波塔とのリンクがデータとして伝送されているため、コロナ禍での繁華街の人流把握にも使われていたことを知っておいてもよいだろう。個人もデータを知らないうちに発信しているのである。

学年
高校生
  • 1
  • 2
  • 3

③オープンデータ

概要

オープンデータとは国や地方公共団体や各種事業者が収集したデータをネット経由で無償公開しているものである。元々は統計資料作成のためなど内部で活用するデータとして統計処理後の情報のみが公開されていたが、ダウンロードしたり、一定の手順を使えば常に最新データにアクセスできたりできるなど、企業のサービス以外に教育にも積極的に活用されだしている。これをモーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

誰かが意図的に統計処理を加えたり、表やグラフの形にしたりしたものは、もはやデータではなく情報として扱われるため、著作権等の権利が発生することが多い。しかし、データ提供元がほぼ「生」のままのデータを非営利はともかく営利目的での利用を認めたデータであることが重要である。そのままでは価値が見いだせなかったり、従来用途しか思いつかなかったデータであっても、多数の視点や目的で見たときに新たな活用やサービスが生まれる可能性がある。複数のオープンデータを組み合わせて使うことで、さらなる付加価値を生み出す事も可能だろう。
日本の国税調査結果や各国の一部状況をデータ公開する総務省統計局(https://www.stat.go.jp/)や、それを統計の視点で精子利他e-Stat(https://www.e-stat.go.jp/)、地域別に経済分析システムとして簡単な資料まで作成できるRESAS(https://resas.go.jp/#/13/13101)など、国が用意するデータだけでも多方面からの活用ができる。
同じデータであっても処理方法や結び付けるデータが異なれば、異なる需要を生み出すことができる。そのみんなが使いやすい形式でデータを蓄積しておくという考え方は、次のコンテンツであるデータベースにつながる。

学年
高校生
  • 1
  • 2
  • 3

④データの活用とデータベース

概要

無秩序に集められたデータは長さも形式も不統一で、統計処理しようとしても苦労してしまう。そのため集める(保存する)時点で、利用することを前提とした形に決めておいた方がよい。例えば郵便番号なら 7桁、小学校の学年なら 6段階のような(場合によっては将来の変更も踏まえて)決められた形式で蓄積していったデータの集まりがデータベースである。ここでは最も数多く利用される関係データベースについての基本的な考えまでをモーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

各自が持っているスマートフォン内にあるアドレス帳も立派なデータベースである(住所部分が何文字入るか確認させてもよいだろう)。生徒が利用するSNSに入会する際に入力した個人情報や ID、パスワードもすべてデータベースで管理されている。取り出して使うことが前提のものなので、例えば IDとパスワードの入力に対してデータを照会し、存在確認の結果を返して認証を行っている。

高等学校では Excelを学習しても、複数のシートやファイルにまたがる式を入力しないことが多いので想像しにくいが、データベースの基本も「表のような形にデータを入れていく」である。表計算ソフトと違って「絶対データが重複しない列を1つ決める」という点が重要(プライマリキー)。その列にあるデータを元に表同士を結び付けていく。これが関係データベースの基本である。
インターネットは莫大なデータが簡単に集まるが、その形は不定であることが多い。充分大きなデータの集まりをビッグデータと呼び、そういった従来の関係データベースでは表現しにくいものは、NoSQLとして分類されることが多いと覚えておくとよいだろう。

学年
高校生
  • 1
  • 2
  • 3

⑤データの種類

概要

アンケートを作成したり集計したり結論を下したりするときに、データの種類を意識して行わないと無意味な作業になってしまう。集計に使うデータは、その性質によって分類された名義尺度、順序尺度、間隔尺度、比例尺度があるので、これをタイムの差を例にモーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

名義尺度:付番されていても順序性がない、ただの付番なので数字同士の演算は無意味
ほかと区別するために数字がふられているという形なら理解できるはずだ。文化祭出店の内容を決める時に並べる「1.お化け屋敷」、「2.焼きそば屋」などと同じである。

順序尺度:数字に順序性はあるが、数字同士の演算は無意味
ランキング(順位)や満足度,好感度など、何らかの集計の結果得られた順序なので、「1位と 4位で 4倍差が開く」というような計算は成り立たない。

これら2つは質的データと呼ばれている。

間隔尺度:提示された数値の間隔が一定のため、大小比較や演算による分析が可能
気温・体温(温度)や時間(年月日時分秒)など目盛が等間隔のものがこれにあたる。ただし、10度だった気温が 20度になっても「気温が2倍になった」という比での表現はしない。

比例尺度:間隔尺度と同じだが、数値の差とともに比にも意味がある場合。
簡単に言えば、体重ゼロ、速度ゼロは絶対的な原点でマイナス値は存在しないため比の計算にテキストと考えればよい。

これら2つは量的データと呼ばれている。

学年
高校生
  • 1
  • 2
  • 3

⑥データの取り扱い

概要

データを比べる方法には代表値を求めて行われる。世間一般でも多用される平均値も代表値の1つだ。ここでは、平均値も含めて他の代表値である中央値や最頻値に対する説明が、クイズ大会の結果を例にとって、モーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

学校の学習活動で代表値といえば、一般的に平均値が使われる。しかし平均値というのはデータの分布の形によっては正しい傾向を表さないことがある。例えばクラスで比べたときまったく同じ平均点であっても、まんべんなく点数が分布している場合と、優秀な点数が多いが最低点も多い場合ということが発生する。そこで平均値以外の選択肢に目を向ける部分がこのコンテンツである。
ザックリと言えば中央値はデータを並べた丁度真ん中の値、最頻値は最も頻繁に登場する値というところから理解を深めていく。

なんとなく分布を見ると、どこかが膨らんだ山形のカーブであっても、極端な点数がわずかでもあると平均値は大きく影響を受ける。中央値や最頻値は逆に影響を受けにくいということを知った上で、それぞれがどのような特徴を持っているかを確実に理解しておきたい。
前のコンテンツであるデータの種類と関連している部分もあるので、尺度を理解してから本コンテンツを学習すると、より理解が深まるだろう。

学年
高校生
  • 1
  • 2
  • 3

⑦データの分析

概要

紙で採ったアンケートなどをただ数を数えるだけでなく、見やすい表の形でまとめたり、グラフにしたりすることによってイメージでの把握がしやすくなり可視化が進む。数字の羅列だけでは見えてこなかった傾向に気づくこともある。また、自由記述欄など形式が整っていない文字の部分をグラフィカルに表現するテキストマイニングも含めてモーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

生徒にグラフを作らせると言われたとおりにしかできないし、表のどの部分をどのようにグラフ化するのか考えられない場合がある。縦軸と横軸を変えないと求めるグラフにならなかったり、単純な積み上げではなく100%積み上げでないと棒グラフとして意味をなさなかったりすることもある。
文字や数字の羅列よりも表に整理すること。データの特徴を視覚的に捉えやすくするためにグラフ化すること。グラフ化には分析したい目的があって、それに合わせた種類や形式を選ばなければならないことを学習させたい。

自由記述で書かれた場所は、同じ意味でも類義語や表現が異なると同一内容として結び付けることは難しい。また、同じ単語でも前後に連なる文脈で逆の意味になることすらある。本格的なテキストマイニングは非常に高価なので学校で扱うことはないと思うが、分析の入り口だけでも体験できるので、学校からアクセス可能な無料ツールを探して試させたい。分析は必ず「出口」がある。それをしたら何がわかって、どう改善につながるのかということを考えて、作業的に表を作ったりグラフを作ったりすることのないように注意したい。

学年
高校生
  • 1
  • 2
  • 3

⑧仮説検定

概要

統計的な考え方に基づいて、ある考え方が正しいか否かを見極める方法の一つが仮説検定である。論理的に解決するために仮説を立て、それが成り立つか否かを検証していく。物理的な検証をしなくても、コンピュータを使ったシミュレーションを行うことで、ある程度統計的に検証を行える。ここでは「このコインは表が出やすいかどうか」というテーマを使ってモーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

「全部のことを実際に試してみないと結果がわからない」とか「深く考えるのは面倒なので、たぶんこうだろう」というような行動は破滅するだけである。教材にあるようにコイン投げのようなギャンブル要素であっても、その有効性を問う方法はある(現実的には宝くじの当たる可能性や、何連かのガチャが何回引けば当たるのかなどを計算させてみよう)。
「結果を見ると差があるけど、たまたま偶然ということはない?」という疑問からスタートして、きちんとした差が確認できるという「有意差」を求めるのが検定である。そのための計算式や考え方も整備され、世の中の多くの場面で使われていることを伝えたい。

また、有意差がなかった場合、「コインの表が出やすい」ことが否定され、「出やすくない」ということを証明したと勘違いさせることは問題。これはあくまで「差が出やすいとは言えない」ことがわかっただけである(本来は帰無仮説と対立仮説の両方を学習させるが、このコンテンツはあくまでも入り口の学習であることに注意)。どのような考え方で分析すると何が明らかになるのかという、分析にとって最も重要なことを抑えておきたい。

学年
高校生
  • 1
  • 2
  • 3

⑨2つのデータの関係

概要

データを数多く収集すると、2つのデータに関係性があるのではないかと気づく段階がある。「一方が増加しているからもう一方も増加しているのではないか」という疑問から相関関係、そして因果関係、さらには疑似相関までをモーショングラフィックスで表現し、理解を助けるように分かりやすくまとめられている。

指導のポイント

一方が増加すると他方が増加または減少するような関係を相関関係といい、一方が原因となって他方の結果を生じさせるような関係を因果関係という。相関と因果を区別なく、または逆転して覚えている生徒がいるので、丁寧に学習させること。ネット上の乱暴な理論や暴言、都市伝説のようなものも疑似相関であるにも関わらず、それを根拠に主張してくるものが多いことを伝えたい。

教科「情報」は数学を学ぶ教科ではないが、検証や検定など何かを明らかにするときにどうしても数式を使う必要が出てくる。数式の本来の意味まで再学習していては先に進まなくなるので、「このようなことをするには、この数式を用いるとよい」という解釈でよい。数式さえ入力できれば表計算ソフトが答えを出してくれるので、その答えを「どう解釈するか」という方向に時間を取りたい。
論理的思考が必要となる部分なので、ここでのアイスやジュースの例だけでなく、さまざまな例を取り上げたり、生徒に例を考えさせたりするなどして、定着を図りたい。