第8章 纳入定序变量
定序变量介乎于定距变量与定类变量之间,常用的纳入模型方式可能有:
- 作为定距变量直接代入模型中;
- 作为定类变量,生成若干哑变量代入模型中。
但是当定序变量作为主要自变量时,有另一种处理方式:
假定定序变量\(O\)共有\(N\)个有序类别,则生成\(N-1\)个哑变量,记这些哑变量为\(D_i\),\(O\)第\(i\)个的类别\(o_i\):
\[ \begin{align*} \begin{split} D_i= \left \{ \begin{array}{ll} 1, & O \geq O_i\\ 0, & O < O_i \end{array} \right. \end{split} \end{align*} \]
如果读者没有理解上述公式,此处以教育程度为例子。
假定研究中教育程度划分为
- 没上过学
- 小学辍学
- 小学
- 初中
- 高中/中专/职高
- 本科/专科/高职或更高。
那么一共生成如下5个哑变量:
- 上过学(表示小学辍学或更高)
- 完成小学(表示小学或更高)
- 完成初中(表示初中或更高)
- 完成高中/中专/职高(表示高中/中专/职高或更高)
- 完成本科/专科/高职(表示本科/专科/高职或更高)