機械学習はモデルに入力データを入れ、出力を手にいれます。この文だけみると普通の関数との違いがあまりわからないですが、実は機械学習といっただけだとあまり違いがありません。もうちょっと具体的に教師なし学習、教師あり学習と区別をしはじめると入力データが単一のものでなくなり、教師データとテストデータなど機械学習特有の概念があらわれますが、それはあとで説明することにします。
さて、まずは重要な入力データです。これはまずどこからかデータをとってくるところから始めなければならないのですが、これはもうすでにあるものと仮定します。このとってきたデータをそのままモデルに入力できればいいのですが、そのまま機械学習のモデルに入力できることはまれで、実際にはモデルが受けつけられる入力の形式に変換する必要があります。この処理は前処理と呼ばれ、データ形式の変換とともにデータの欠損の補完やデータの意味自体を解釈して扱いやすいように変換することも含まれます。
この前処理をしたものをモデルへの入力として使います。