第8章 纳入定序变量


定序变量介乎于定距变量与定类变量之间,常用的纳入模型方式可能有:

  • 作为定距变量直接代入模型中;
  • 作为定类变量,生成若干哑变量代入模型中。

但是当定序变量作为主要自变量时,有另一种处理方式:

假定定序变量\(O\)共有\(N\)个有序类别,则生成\(N-1\)个哑变量,记这些哑变量为\(D_i\)\(O\)\(i\)个的类别\(o_i\):

\[ \begin{align*} \begin{split} D_i= \left \{ \begin{array}{ll} 1, & O \geq O_i\\ 0, & O < O_i \end{array} \right. \end{split} \end{align*} \]

如果读者没有理解上述公式,此处以教育程度为例子。

假定研究中教育程度划分为

  • 没上过学
  • 小学辍学
  • 小学
  • 初中
  • 高中/中专/职高
  • 本科/专科/高职或更高。

那么一共生成如下5个哑变量:

  • 上过学(表示小学辍学或更高)
  • 完成小学(表示小学或更高)
  • 完成初中(表示初中或更高)
  • 完成高中/中专/职高(表示高中/中专/职高或更高)
  • 完成本科/专科/高职(表示本科/专科/高职或更高)