作业帮 > 数学 > 作业

请问Logistic回归时,类型较多的分类自变量一定要转为虚拟变量吗?如“教育水平”

来源:学生作业帮 编辑:拍题作业网作业帮 分类:数学作业 时间:2024/04/28 15:04:09
请问Logistic回归时,类型较多的分类自变量一定要转为虚拟变量吗?如“教育水平”
如题,因为类别太多设虚拟变量就要增加好多自变量,
那么这种类别比较多的变量该如何解决呢?
如,“教育水平:文盲,大专,大学及以上”
这些一定要设5个虚拟变量吗?可以用一个变量的1,2,3,4,5,6代替吗(我好像看有些论文是这么做的)
(1)如果六大类分类变量“教育程度”,“文盲”,“小学”,“初中”,“高中”,“大学”,“大学及以上,很明显(6-1 )= 5个虚拟变量.
(2),如果你认为太多的虚拟变量,可以结合分类,如“文盲”,“小学”组合成一个分类的“小学及以下”,“初中合并后的学校“,”高中“,”大学“合并为一类初中 - 大学,所以只有三类简单的设置了两个虚拟变量.课程合并归类,根据问题的实际情况,适当地合并.
(3)不能使用的变量,而不是1,2,3,4,5,6,这是一个相当于“教育程度”作为区间的变量,而不是作为序号的变量来处理.即,与假设:“大学及以上” - “大学”“大学” - “高中
=”高中“ - ”初中“=”初中学校“ - ”主“ “主” - “文盲”!这种限制是常识,显然很难成立.当然,在实际问题中,你可以测试这个假设!