统计学基础干货:描述统计学的数值方法有哪些

统计学基础干货:描述统计学的数值方法

01

位置的度量

1.平均数

  • 样本平均数

统计学基础干货:描述统计学的数值方法

  • 总体平均数

统计学基础干货:描述统计学的数值方法

  • 加权平均数

统计学基础干货:描述统计学的数值方法

  • 几何平均数

统计学基础干货:描述统计学的数值方法

  • 中位数

将数据按照从小到大排列:

  • 对于偶数个观测值,中位数为中间两数的平均值。
  • 对于奇数个观测值,中位数为中间数。
  • 众数

出现最多的数据,可能不止一个。

  • 百分位数

至少有p%的数据小于等于该值,至少有1-p%的数据大于等于该值。

将数据按照从小到大的顺序排列,并计算n*p%:

  • 若为整数,则取该值与下一位数的平均数。
  • 若不为整数,则向上取整。
  • 中位数、四分位数等是特殊的百分位数。

02

变异程度的度量

1.极差与四分位数间距

  • 极差:最大值与最小值之差

统计学基础干货:描述统计学的数值方法

  • 四分位数间距(Interquantile Range,IQR):四分位数之差

统计学基础干货:描述统计学的数值方法

极差与四分位数间距都是变异程度的简单度量,相比较而言,极差更容易受异常值影响,因此多采用四分位数间距。

2.方差与标准差

方差是对数据总体变异程度的度量。

  • 总体方差:

统计学基础干货:描述统计学的数值方法

  • 样本方差:

统计学基础干货:描述统计学的数值方法

其中样本方差为无偏方差。

  • 无偏性:统计量的估计值的均值等于该统计量

统计学基础干货:描述统计学的数值方法

证明:其中μ为总体均值,σ为总体标准差

统计学基础干货:描述统计学的数值方法

对于随机变量X

统计学基础干货:描述统计学的数值方法

故有

统计学基础干货:描述统计学的数值方法

同理,由于

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

标准差(s):方差的算术平方根。

标准差系数(变异系数):标准差除以平均数。

统计学基础干货:描述统计学的数值方法

03

分布形态、相对位置度量以及异常值检测

1.分布形态的度量——偏度

偏度:若随机变量的三阶矩存在,则偏度定义如下:

统计学基础干货:描述统计学的数值方法

当偏度大于0时,称为右偏,偏度小于零称为左偏。

统计学基础干货:描述统计学的数值方法

2.切比雪夫定理

切比雪夫定理:对于任意分布,与均值距离z个标准差的之内的数据所占的比例至少为1-1/z2,其中z>0。

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

针对连续变量的切比雪夫不等式证明:

要证

统计学基础干货:描述统计学的数值方法

只需

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

由于

统计学基础干货:描述统计学的数值方法

统计学基础干货:描述统计学的数值方法

故原命题得证。

3.异常值检测

异常值检测有两种简单的方法:

1.z-score法

统计学基础干货:描述统计学的数值方法

由于日常数据大多近似服从正态分布,由标准正态分布表可知,数据位于z=±3之内的的概率为99.87%,因此,对于z位于该区间之外的数据认为是异常值。

2.四分位数间距法

统计学基础干货:描述统计学的数值方法

04

五数概括法和箱线图置的度量

1.五数概括法

用最大值最小值中位数以及上下四分位数五个数字对数据进行概括的方法。

2.箱线图

统计学基础干货:描述统计学的数值方法

以上数据为某城市100家餐厅的代表餐品价格以及餐厅的质量评级,下面使用箱线图描述不同等级的餐厅价格分布。其中:

  • 箱内线:中位数
  • 箱子上边界:第三四分位数Q3
  • 箱子下边界:第一四分位数Q1
  • 上边界线:min{max(X),Q3+1.5IQR}
  • 下边界线:max{min(X),Q1-1.5IQR}
  • 上下边界外的点:异常值

统计学基础干货:描述统计学的数值方法

05

两变量之间关系的度量

1.协方差

协方差是两随机变量线性相关性的度量,协方差绝对值越大,两随机变量相关性越强,协方差为正数表明两随机变量正相关,协方差为负表明两随机变量负相关。对于一组容量为N的数据,其观测值为(X1Y1),(X2Y2)…(XNYN),其协方差定义如下:

总体协方差:

统计学基础干货:描述统计学的数值方法

类似的,样本协方差为:

统计学基础干货:描述统计学的数值方法

样本协方差为总体协方差的无偏估计量,其证明如下:

统计学基础干货:描述统计学的数值方法

2.相关系数

协方差的问题在于受数据大小影响,例如,将所有数据扩大5倍,则线性相关性不变但是协方差绝对值增大,为避免这种现象,我们采用相关系数描述相关性。

总体相关系数:

统计学基础干货:描述统计学的数值方法

样本相关系数:

统计学基础干货:描述统计学的数值方法

  • 样本相关系数不是总体相关系数的无偏估计。
  • 相关系数取值范围为[-1,1],其绝对值越接近1线性相关性越强。

相关系数取值范围的证明:

由柯西-施瓦茨不等式

统计学基础干货:描述统计学的数值方法

易证明相关系数取值范围为[-1,1]

柯西-施瓦茨不等式简单证明:

构造一个恒不为负的二次函数

统计学基础干货:描述统计学的数值方法

由于其恒为非负,故有判别式小于等于0,即:

统计学基础干货:描述统计学的数值方法

原命题得证。

荐:

【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

声明

来源:segmentfault,人工智能产业链联盟推荐阅读,不代表人工智能产业链联盟立场,转载请注明,如涉及作品版权问题,请联系我们删除或做相关处理!

本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:dandanxi6@qq.com

(0)
上一篇 2023-04-03 11:25
下一篇 2023-04-03 12:44

相关推荐

  • 2021高考落榜生的八种出路

    高考结束已过去了一段时间,高中或是落榜早已尘埃落定,俗话说过去的就让它过去,放眼未来才最重要!高考决定不了人生,一时的失利不能说明太多事情。今天左老师就给大家说说高考落榜生的8大出…

    2022-12-06
  • 网络游戏的危害论据

    网瘾少年 网瘾少年犯罪 说说网络游戏的几大害处: 1.众多青少年沉迷其中,无法自拔,不能正常学习生活,耽误学业,误人子弟。 2.玩网游耗费大量资材购买装备购买装备小则几千,多则几万…

    2022-11-16
  • 超短交易技巧口诀(短线交易方法及步骤)

    一、日内交易 之前文章说的是短线的定义,其实短线还有一些分类,比如超短,像股票的日内T+0和商品期货的炒单。无论是股票的日内交易,还是商品期货的炒单,只要做短线,我们都要关心以下两…

    用户投稿 2023-09-10
  • dnf重置技能

    角色调整 阿修罗* 平打攻击/冲刺攻击/跳跃攻击 – 攻击力 10% 增加.* 裂波斩 – 新增 波动刻印 习得后,对无法抓取的敌人攻击判定成功时,会生成波…

    2022-12-11
  • 成都有什么僻静一些的好玩的地方

    成都有很多好玩又好耍的地方,有些地方有人文气息、有些地方有历史底蕴、有些地方有时尚现代风,每一个地方都各具特点,都能让你流连其中。 一、望江楼公园:这个公园靠近川大东门,是纪念女诗…

    2023-02-10
  • 怎样能从零基础快速学韩语

    第一步 开启你的学习之路吧! 1.学习韩文字母表 (不论学习什么语言,字母表都是最好的开始方式,或许很多人会觉得它看起来奇怪,其实韩语的字母表非常简单的哦。甚至由于它非常简单易懂,…

    2022-11-29
  • 什么老鼠跑的最快,老鼠满街跑预示什么

    非洲游记刚刚拉开序幕,图片将我们带回那片充满了野性和活力的原野,有风,自心田拂过。 不晓得为什么,每次看动物的眼神,总会觉得凄苦,也许是因为看多了关在笼子里的生灵?也许是我们自己心…

    2023-01-30
  • 什么是水利工程,什么是水利工程事故

    一、基本概念 为统一施工质量检验与评定,水利水电工程在施工过程中一般划分为若干单位工程,单位工程划分为若干分部工程,分部工程划分为若干单元工程,按三级项目划分并进行质量控制。 单位…

    用户投稿 2023-01-03
  • 创造101成团所有名单资料,创造101出道的十一位名单

    没有什么公不公平 关于《创造101》十一名成团名单,我们认不认可。是没有用的,因为大局已定。不过这都是观众投票出来的,觉得没那么公平,有实力的人均被淘汰,再说了,谁人气高就选谁,还…

    2023-07-13
  • 李红涛三次越狱的真实事件

    李红涛用自己的人生经历告诉我们:学好数理化,走遍天下都不怕。 在中国,曾经有这样一名高智商的罪犯,他三次被抓两次越狱,在死刑前一天发明出一项“神器”而被改判为死缓,完成逆天改命。 …

    2023-06-10