「データサイエンス」シリーズ概要

編集委員: 柴田里程,北川源四郎,清水邦夫,神保雅一, 柳川堯

この激動の時代は,社会のさまざまな局面での的確なデータの理解と解析が 大きく勝敗を左右する.そのために生まれた 新しい枠組がデータサイエンスである. データの流れの上流から下流までを一貫 して科学する学問としてのデータサイエンスを本シリーズを通じて世の中に問える 機会を与えられたことは編著者一同のおおきな喜びである.

データサイエンスの守備範囲は極めて広いが,興味の中心はそのコンテンツに ある.たとえばデータ圧縮は画像など大量のデータを扱うとき欠かせない 技術であり,当然データサイエンスにおいても必要となる技術であるが,データ サイエンスではデータを伝送し蓄積することよりも,むしろ そのデータから目的にあった情報だけをいかにうまく抽出するか, また できるかに興味がある. データサイエンスの核心は, 個々のデータによらない情報抽出 に必要な共通知識の体系的な蓄積である.もちろん,データの背景に大きく 依存する部分も数多く存在する.それらも取り込みながら共通部分の発見と体系化 を計るのがデータサイエンスである. したがって,データサイエンス は,最近盛んに提唱されている KD ( Knowledge Discovery ) あるいは KDD ( Knowledge Discovery in Database )とも多くの共通点を有する. 実際,本シリーズの第 3 巻ではデータマイニングのさまざまな手法を取り上げ, 第 7 巻ではニューロネットワークを始めとするデータ学習アルゴリズムを取り上 げる. しかし,世の中の複雑さを反映してデータも複雑であり,またその流れも 複雑である. データの上流から下流までをトータルに関与するデータサイエンス は,単に知識の手法の開発だけでなくその前後をもカバーする 科学としてこれから大きく発展する分野である.

本シリーズは,的確なデータの理解と解析,さらにはそれにもとづくモデル構成 の必要にせまられた人々に対する助けとなることを第一の目的としている.データを 媒体として必要な情報を取得するには,その初期段階であるデータの取得から 理解,解析,モデル化の段階までを順序よくたどらなければならない. 本シリーズはこのようなデータの流れにそって各段階で必要となる知恵と技法,理論 背景をできるだけ簡明に提示する. 現在いわゆる表計算ソフトウエアで 一応の解析を行っているがそれでは不十分と感じている人々,はたしてこんな 解析をして大丈夫だろうかという不安を抱えている人々,このようなソフトウエア では扱いきれない大量で複雑なデータに直面して困惑している人々にも大いに役立 つことを念頭において編集した.一方で,データサイエンスの今後の発展に重要とおも われる基礎理論や最先端のトピックのいくつかもこのシリーズに含めることに した.データの流れという水平方向だけでなく垂直方向にあたる データサイエンスのカバーする 領域の厚みを示す狙いもある.シリーズ全体を通じての基本は読者にデー タサイエンスの有用性だけでなくその面白さも味わっていただきたいという 編著者の願いである.この願いがどれだけ実現しているかは読者諸兄姉の評価 を待たなければならないが,できるだけの努力は重ねたつもりである.

本シリーズはいま必要にせまられている人々のみならず, 将来そのような必要に迫られるであろう社会人,大学院生, 大学生,さらには一部の 意欲的な高校生にまでおおいに役立つに違いない.基礎知識としては(理科系)高校 卒業程度,あるいは大学一年次で学ぶ線形代数,解析入門程度 を前提とし,データの流れにそっての大筋の理解にはそれで十分なように 配慮されている.もちろん,データから真に役立つ結果を導き出すにはより高度な 知識が必要となることが多い.そのような部分に関しては,適切な参考文献を引用 するか付録として補足することにより読者の理解の流れを乱さないように十分配慮した.

本シリーズは大きく分けて 3 部よりなる.第 1 部はデータそのものに関してである. 目的にあったデータ取得の計画から始まり,データの浄化,構造化,変容,流通, 蓄積,質の評価にいたるまでのデータのさまざまな側面を扱っている.第 2 部はデータに もとづくモデル化である. モデルの探索から始まり,典型的なモデル化の技法, 構築したモデルの検証,さらにはそれに必要な計算機ソフトウエア,アルゴリズム に至る.第 3 部は分野別の実際例よりなる.幾つかの具体的な適用分野をとり あげそこでのデータの流れを例示することにより,読者が自分自身の問題 に対して有効なアプローチを編みだすことができるのではないかと期待している.

本シリーズの編集にあたって意を用いたことは,その明解性と一貫性である. ともすれば,専門的になりすぎ書いた人だけがわかるといった批判を 招きかねない専門書の集合体となる危険を避けるため編集委員と著者が密接な 連絡を取り合い,納得のいくまで書き直しを重ねた. その意味では著者にも 多大な負担をかける結果となったが,すべては読者のためということでお許し いただきたい. また,網羅的であることには特に重きをおかなかったため 本シリーズはデータサイエンスのごく一部を覆っているにすぎないが, なんらかの形で本シリーズがデータサイエンスの今後の発展の礎と なるならば望外の喜びである.

本シリーズは,これから激化する自由競争の時代を迎える社会の さまざまな分野でのデータから必要な情報を高品位に抽出したいと いう要請に具体的に応える第一歩である.


計画概要