1、在描述统计中,可以通过统计量描述数据的分布特征。对于数据分布特征的测度主要分为三个方面:一是分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;二是分布的离散程度,反映各数据之间的差异程度,也能反映中心值对数据的代表程度;三是分布的偏态,反映数据分布的不对称性。
2、集中趋势是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势的测度也就是寻找数据水平的代表值或中心值。
3、均值。均值也叫作平均数,就是数据组中所有数值的总和除以该组数值的个数。
4、中位数是一个位置代表值,主要用于顺序数据和数值型数据,但不适用于分类数据。中位数的优点是不受极端值的影响,抗干扰性强,尤其适于收入这类偏斜分布的数值型数据。
5、众数是指一组数据中出现次数(频数〉最多的变量值。
6、均值、中位数和众数三者的关系及各自的适用范围是:
①均值适于定量变量。优点是能够充分利用数据的全部信息,均值大小受每个观测值的影响,比较稳定;缺点是易受极端值的影响,如果观测值中有明显的极端值,则均值的代表性较差。
②中位数不适于分类变量,适于顺序变量和定量变量,特别是分布不对称的数据。优点是不受极端值的影响;缺点是没有充分利用数据的全部信息'稳定性差于均值,优于众数。
③众数不适用于定量,变量主要适用于分类和顺序变量。优点是不受极端值的影响,尤其是分布明显呈偏态时,众数的代表性更好。缺点是没有充分利用数据的全部信息,缺乏稳定性,而且可能不唯一。
7、离散程度反映的是数据之间的差异程度。集中趋势的测度值是对数据水平的一个概括性的度量,它对一组数据的代表程度,取决于该组数据的离散水平。数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差'离散程度越小'其代表性就越好。
8、方差是数据组中各数值与其均值离差平方的平均数,它能较好地反映出数据的离散程度,是实际中应用最广泛的离散程度测度值。方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
9、标准差即方差的平方根。
10、偏度是指数据分布的偏斜方向和程度,描述的是数据分布对称程度。
11、偏态系数取决于离差三次方的平均数与标准差三次方的比值。如果偏态系数等于0,说明数据的分布是对称的;如果偏态系数为正值,说明分布为右偏的,取值在0和化5之间说明轻度右偏,取值在0.5和1之间说明中度右偏,取值大于1说明严重右偏;如果偏态系数为负值,说明分布为左偏,取值在0和5之间说明轻度左偏,取值在5和-1之间说明中度左偏,取值小于-1说明严重左偏。偏态系数的绝对值越大,说明数据分布的偏斜程度越大。
12、客观现象的相关关系可以按不同的标准进行分类:
(1)按相关的程度可分为完全相关、不完全相关和不相关。
(2)按相关的方向可分为正相关和负相关。
(3)按相关的形式可分为线性相关和非线性相关。
13、两个变量间的关系可以用散点图来展示。在散点图中,每个点代表一个观测值,横纵坐标值分别代表两个变量相应的观测值。
14、相关系数是度量两个变量间相关关系的统计量。
众数:
一般来说,一组数据中,出现次数最多的数就叫这组数据的众数。
例如:2,3,3,3,4,5的众数是3。
中位数:
把一组数据按从小到大的数序排列,在中间的一个数字(或两个数字的平均值)叫做这组数据的中位数。
如果总数个数是奇数的话,按从小到大的顺序,取中间的那个数。
如果总数个数是偶数个的话,按从小到大的顺序,取中间那两个数的平均数。