美国健康保险投保率影响因素的实证分析
2015-04-20程小珊
程小珊
摘 要:目前,美国已建立起相对完善的健康保险制度,但仍存在一些缺陷,如众所周知的美国保费偏高问题。本文将利用8000多个研究对象得到的数据进行回归分析,研究某些因素,如就业情况、年龄、受教育程度等对健康保险投保率的影响。这将有利于美国进一步改善健康保险制度,使其能真正保障全民利益。
关键词:健康保险;投保率;个体户
一、问题的提出
健康保险是对被保险人在发生疾病或意外事故时带来的伤害引起的费用或损失进行补偿的一种保险。健康保险按照保险责任,分为疾病保险、医疗保险、收入保障保险等。美国的健康保险是按两种方式组织的:一是由雇主同保险公司签定合同,根据一定的条件为职工及其家属提供医疗保险;二是个人投保健康保险。
现实中有很多因素可能影响健康保险的投保率,比如说年龄、受教育情况、婚姻状况、地域等,而就业情况对投保率的影响也是至关重要的,如个体户可能比雇员的投保意愿更低。
二、数据分析
为了研究上文所提到的问题,我们使用了哈维·罗森教授提供的数据。这些数据包含着在美国境内随机选取的8000多位工作者的信息,其中,有7731位雇佣劳动者和1071位个体户。首先,我们进行简单的数据汇总分析,经运算发现,约81.67%的雇员都购买了健康保险。但是,个体户中大约只有68.9%的人拥有健康保险。这似乎很符合实际,雇主会为雇员购买健康保险,而个体户只能自己购买保险,他们通常不是很在乎这些。另外,通过比较个体户和雇员,我们还发现,个体户的平均年龄约44,大于雇员的平均年龄38。个体户中男性占63%,而雇员中男性仅占51%。这些数据还涉及了很多其他因素,比如受教育情况,家族规模,婚姻状况等,这些在我们接下来的研究中都会考虑到。
现在,我们考虑年龄对投保率的影响并以40岁为分界线。我们发现,40岁以下的工作者健康状况均值约为0.943,投保率约为0.754,而40岁及以上的工作者健康状况均值约为0.912,投保率约为0.853。因此,我们可以得出这样的结论,年轻人比更年长的人的健康状况好一些,投保率也相对较低。再来看婚姻状况对投保率的影响。已经结婚的人买健康保险的概率是0.858,明显大于未婚人的0.710。对此,我觉得原因可能有以下两点。一方面,结婚的人年龄通常要比未婚的人年龄大,这就可以用我们前面得出的结论来解释,年龄更大的人通常更愿意买健康保险。另一方面,考虑到家庭规模在结婚后会变大,结婚后他们通常会有孩子,于是他们承担了更多的责任,因为他们不仅要赡养父母还要培育孩子。于是他们更有理由关心自己的健康和安全,因为这不仅仅关系到他们自己的利益,所以他们的投保率更高。
通过以上分析我们可以看出,个体户,年龄小的人和未婚人士购买健康保险的概率更低。这些看起来似乎很符合逻辑,但是就业情况、年龄等因素对健康保险投保率的影响可能并不像人们想的那么显著,又或许这些影响存在偏差,所以我们只有通过实证分析才能检验这些因素的真实影响。
三、回归模型的建立
首先,我们比较三个模型,线性概率模型、probit模型和logit模型,以寻找能最准确地描述数据的模型。我们把代表是否投保的二元变量insured作为因变量,把代表个体户的二元变量selfemp以及性别变量、年龄变量、健康状况变量、婚姻状况变量、家庭规模变量、受教育情况变量、人种变量、地域变量作为自变量来研究。我们都知道,线性概率模型有致命的缺陷,如给定X的变化值,它所引起的预测概率的变化都是相同的,这种变化并不取决于X值本身。并且预测概率的值可能小于0或大于1,这显然是不可行的。所以我们直接拋弃线性概率模型,只研究其他两类模型。通过和logit模型进行比较,我们发现probit模型具有更大的pseudo-R2值。而且probit模型自变量系数的显著性没有大的变化,显然,我们应该用probit模型进行进一步分析。通过加入受教育情况变量、地域变量和人种变量,我们发现模型的pseudo-R2更大了,而且这三种变量的Chi-squared统计量都非常大,所以我们应该保留这些变量。而anylim变量的系数值较小并且在5%水平上不显著,所以我们舍弃这一变量。值得说明的是,为了避免多重共线性,我们舍掉了deg_oth, reg_we , race_ot三个变量。因此,我们以后的研究基于这样一种probit模型:因变量为代表是否投保的二元变量insured,自变量为个体户变量,性别变量、年龄变量、健康状况变量、婚姻状况变量、家庭规模变量、受教育情况变量、人种变量和地域变量。该模型可用回归方程表述成:
(Insured=1|selfemp, healthy, age…) = Φ(0.121-0.680*selfemp+0.154*healthy+ 0.0154*age -0.149*male+ 0.536*married+…)
本文最后的表格展示了我们进行一系列改进模型措施的结果。第一列就是我们前面提到的基础回归模型。首先,考虑到函数形式误设,我们试图加入平方项和交叉项来消除这种偏差。从第二列可以看出,加入年龄变量的平方项后,虽然该项系数并不是很显著,但是pseudo-R2提高了,而且其他变量系数的显著性也没有变化,所以我们暂时保留年龄变量的平方项。从第三到第五列我们加入了一系列的交叉项,但是我们最终只保留了较为显著的,并且没有引起其他变量系数发生巨大变化的am(age*married)项。我们的最终回归模型如第六P列所示。该回归方程可表示为: