相关分析与回归分析
一、本讲要求
(一)相关关系的概念和种类
熟悉相关关系的基本概念和特点;
熟悉相关关系的种类;
(二)相关分析
熟悉相关关系的描述方法——相关表与相关图;
熟悉相关系数的含义、相关系数的特点;
熟悉相关系数的计算方法和相关系数的显著性检验方法。
(三)回归分析的概念
熟悉回归分析的概率和回归分析包括的主要内容;
熟悉回归分析与相关分析的区别
二、本讲内容
(一) 相关关系的概念与种类
1.相关关系的概念
在现实世界中,任何事物或现象都不是孤立存在的,而是相互联系、相互制约、相互依存的。当某些现象发生变化时,另一现象也会随之发生变化。如商品价格的变化会刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益;直接材料、直接人工的价格变化会对产品销售成本有直接的影响;居民收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数据进行数据分析,为客观、科学地统计提供依据。
现象间的依存关系大致可以分成两种类型: 一类是函数关系,另一类是相关关系。
(1)函数关系。函数是指现象之间有一种严格的确定性的依存关系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之相对应。例如,银行的1年期存款利率为年息1.98%,存入的本金用x表示,到期本息用y表示,则y=x+1.98%x(不考虑利息税);再如,某种股票的成交额Y与该股票的成交量X、成交价格P之间的关系可以用Y=PX来表示,这都是函数关系。
(2)相关关系。相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润的数量关系却是不确定的。这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜好等因素以及其他偶然因素的影响;再如,生育率与人均GDP的关系也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。
具有相关关系的某些现象可表现为因果关系,即某一或若干现象的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其称为自变量;另一个现象的变化是自变量变化的结果,它是不确定的值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包括的范围更广泛。
相关关系和函数关系既有区别,又有联系。有些函数关系往往因为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;而在研究相关关系时,当对其数量间的规律性了解得越深刻的时候,其相关关系就越有可能转化为函数关系或借助函数关系来表现。
(3)相关关系的两个特点
①现象之间确实存在着数量上的依存关系。就是说,一个现象发生数量上的变化,另一个现象也会相应地发生数量上的变化。
②现象间的数量依存关系值是不确定的。就是说,一个现象发生数量上的变化,另一个现象会有几个可能值与之对应,而不是确定的值。
2.相关关系的种类
现象之间的相关关系从不同的角度可以区分为不同类型。
(1)按照相关的方向不同分为:正相关和负相关。
正相关——当一个变量的值增加或减少,另一个变量的值也随之增加或减少。如工人劳动生产率提高,产品产量也随之增加;居民的消费水平随个人所支配收入的增加而增加。
负相关——当一个变量的值增加或减少时,另一变量的值反而减少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本的降低而增加。
(2) 按照相关形式不同分为:线性相关和非线性相关。
线性相关——又称直线相关,是指当一个变量变动时,另一变量随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系。
非线性相关——一个变量变动时,另一变量也随之发生变动,但这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一条曲线,如抛物线、指数曲线等,因此也称为曲线相关。例如,工人加班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反而可能下降,这就是一种非线性关系。
(3)按相关程度分为:完全相关、不完全相关和不相关。
完全相关——当一个变量的数量完全由另一个变量的数量变化所确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成为函数关系,因此也可以说函数关系是相关关系的一个特例。
不相关——又称零相关,当变量之间彼此互不影响,其数量变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气温的高低一般情况下是不相关的。
不完全相关——如果两个变量的关系介于完全相关和不相关之间,称为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独立的,因此统计学中相关分析的主要研究对象是不完全相关。
(4)按研究的变量(或因素)的多少分为:单相关、复相关和偏相关。
单相关——又称一元相关,是指两个变量之间的相关关系,如广告费支出与产品销售量之间的相关关系;
复相关——又称多元相关,是指三个或三个以上变量之间的相关关系,如商品销售额与居民收入、商品价格之间的相关关系。
偏相关——在一个变量与两个或两个以上的变量相关的条件下,当假定其他变量不变时,其中两个变量的相关关系称为偏相关。例如,在假定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关关系即为偏相关。
3.相关关系分析的基本内容
统计对现象之间相关关系的分析,主要从两方面进行:一是测定变量之间的相关关系的密切程度,称为相关分析;另一是根据变量之间的关系形式,用一个数学表达式,来反映有相关关系的变量之间的数值变化关系,据此由一个或若干个自变量的数值推断出因变量的可能值,这种分析称为回归分析。相关分析与回归分析既有区别又有联系,两种分析构成了相关关系分析的基本内容。
(二)相关分析
1.相关分析的描述——相关表与相关图
在进行相关分析之前,首先要判断现象之间是否存在相关关系,是何种形式的相关关系。这种判断,最初是要对研究对象进行定性分析,在初步确认有相关关系后,还要运用大量的实际观察资料,编出相关表、绘出相关图,利用相关图表,再进一步判断相关关系的形式,为相关分析奠定基础。
3.简单线性相关分析的特点
(1)相关分析主要是计算一个统计指标,即相关系数,反映变量之间关系的密切程度;
(2)分析时把两个变量的地位可以看成是对等的,不用分哪个是自变量,哪个是因变量。直接根据两个变量的数值即可计算相关系数;
(3)在存在互为因果关系的条件下,相关系数也只有一个。
(4)相关系数有正负号,表示相关的方向;
(5)计算相关系数时,所需的两个变量的资料都可以是随机的。
(三)回归分析的概念
1.回归分析的概念
计算相关系数只能说明现象间相关关系的方向和程度,关系密切与否,但不能说明一个现象发生一定量的变化,另一个现象一般也会发生多大的变化。如销售收入每增加一万元时,销售利润一般会增加多少?施肥量增加一斤,一般地会增加多少产量?
为了测定现象之间数量变化上的一般关系要使用数学方法,这类数学方法称为回归分析。“回归”这个词的意思,就是指的变量之间的一般数量关系。根据现象之间相关关系的表现形式,配合一条直线或曲线,用这条直线或曲线来代表自变量和因变量相随变动的一般数量关系。也就是要建立并求解直线或曲线的数学方程式,从而求得变量间的一般关系值。
回归有不同种类,按照自变量的个数分,有一元回归和多元回归。只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回归;按照回归曲线的形态分,有线性(直线)回归和非线性(曲线)回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选取回归分析的方法。本节仅讨论一元线性回归分析。
与直线相关分析的特点相比,简单直线回归分析有以下特点。
(1)两个变量之间不是对等关系,一个是自变量,一个是因变量,在进行回归分析时,首先加以确定。
(2)相关系数是个抽象的系数,而回归方程是利用自变量的给定值来推算因变量值,它反映的是变量之间的具体的变动关系。
(3)有些现象因果关系不明显,x、y两个变量可以互换,从方程式看,存在着两个回归方程:一个是以x为自变量,y为因变量,求出的回归方程称“y倚x回归方程”;另一个是以y为自变量,x为因变量,求出的回归方程称“x倚 y回归方程”。画出图来,是两条斜率不同的回归直线。
(4)直线回归方程中的回归系数也有正负号,回归系数为正号,表示两个变量之间的变动方向相同,为负号则表示两变量之间的变动方向相反。
(5)回归分析中的自变量是给定数值,不是随机的,而因变量是随机的,代入给定的自变量值,求出因变量的估计值,这个估计值是许多可能数值的平均值,存在着估计标准误差。
2.相关分析与回归分析的关系
相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。
二者的区别主要体现在以下三个方面:
1.相关分析主要通过相关系数来判断两个变量之间是否存在着相互关系及其关系的密切程度,其前提条件是两个变量都是随机变量,且变量之间不必区别自变量和因变量。而回归分析研究一个随机变量(Y)与另一个非随机变量(X)之间的相互关系,且变量之间必须区别自变量和因变量。
2.相关系数只能观察变量间相关关系的密切程度和方向,不能估计推算具体数值。而回归分析可以根据回归方程,用自变量数值推算因变量的估计值。
3.互为因果关系的两个变量,可以拟合两个回归方程,且互相独立、不能互相替换。而相关系数却只有一个,即自变量与因变量互换相关系数不变。
需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。因此,在具体应用过程中,一定要始终注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展开定量分析。