Ⅰ 消除异常值的常用方法有哪些
在SPSS软件里有2种不同的删除方法,整条删除和成对删除。
当然,这种方法简单易行,但缺点也很明显,首先我们经常会遇到的情况是观测值很少,这种删除会造成样本量不足,其次,直接删除的观测很多,也可能会改变变量的原有分布,从而造成统计模型不够稳定。
(2)暂且保留,待结合整体模型综合分析
通常我们观测到的异常值,有时在对于整个模型而言,其异常性质并没有观测到的明显,因此最好综合分析一下,像回归分析,我们经常利用残差分布信息来判断模型优劣,残差有没有超出经验范围(+3标准差),呈现什么分布等,另外对于整个模型而言,会有一些指标像Mahalanobis、Cook's、协方差比率等可以提供某条观测或整体的拟合信息,这些指标也会提示分析人员的异常值信息。如果对于整个模型而言,并不是很明显时,建议保留。
(3)如果样本量很小,可以考虑使用均值或其他统计量取代
这不失为一种折中的方法,大部分的参数方法是针对均值来建模的,用均值取代,实际上克服了丢失样本的缺陷,但却丢失了样本“特色”,可以说是不大不小的错误。当然如果是时序数据,用于取代的统计量
Ⅱ 异常研究
(一)研究内容
通过异常特征识别、异常查证和综合分析,确定异常成因,分析地球化学异常在基础地质、资源勘查以及农业、环境、生态等方面的应用意义,这是异常研究的基本目的。异常研究主要包括3方面内容:①异常基本属性特征的描述,包括异常真实性,异常元素种类、含量、组合、分布形态、面积、浓集中心、分带、衬度,以及异常元素存在形态、活化迁移和聚积规律及其影响或控制因素,等等;②异常成因分析,确定异常为原生异常、地表次生异常还是人为污染异常,是异常研究的重要任务。异常成因分析主要根据异常基本特征,如异常产出位置、物质组成,异常与地质背景、地貌景观、环境污染源的空间关系等分析得于实现;③异常价值评价,地表环境中元素与化合物是自然环境的基本要素与“基因”组成,元素与化合物的分布特别是异常分布具有广泛的多学科研究及多目标应用意义,是金属矿产、油气、地热等矿产资源勘查,环境质量评价,农田施肥与合理种植及动植物与人体健康研究的基础依据。
通过异常解剖与分析,深入认识掌握区域景观环境条件下元素迁移转化规律,特别是“岩-土-水、气-植物/农产品-人、畜”系统中的元素迁移转化规律,积累地球化学调查资料应用的方法依据和实践经验,从而促进调查资料在种植或养殖业、农产品安全性、环境质量评价与规划、地方病以及基础地质研究(沉积物源、沉积环境、表生景观/土壤地球化学、地质构造)等多目标全方位应用。
(二)研究步骤
(1)确定背景范围和异常限
采用前述的图解法或统计学方法,确定背景值、标准差,进而确定背景范围和异常限。
为更加密切地将地球化学异常研究与农业、环境、地质找矿等应用目标相结合,也可结合具体应用评价标准确定异常限。如:
环境类异常可参照相应的土壤、水体国家质量标准加以圈定,按照环境质量标准圈出的异常在一定程度上反映了环境质量异常区,包含着特定的生态环境意义。例如,超出《地下水环境质量标准》GB/T14848—93四类水标准的“异常”浅层地下水,就不能用于农业灌溉和工业用水。
当土壤中N、P、K、有机质等营养元素或有益组分低于《中国土壤普查技术标准》(汤茶琴等,2003)中缺乏临界值时,对作物生长而言,这类“异常”意味着土壤养分的缺乏与不足。
通常采用《区域地球化学勘查规范》和《多目标区域地球化学调查规范》建议方案求取矿产资源类指标的异常下限,即以剔除离群值后的算术平均值加2倍标准离差作为异常下限。从概率统计学角度来看,据此圈出的异常相对于背景区,具有一定的找矿意义。
其他异常下限求取方法与矿产资源类指标的异常下限求取方法相同,即用剔除离群值后的算术平均值加2倍标准离差作为异常下限。
(2)绘制异常图
根据异常限,以地球化学调查资料为依据,圈定异常范围。可进一步对异常进行浓度分带,确定其浓集中心。
结合地球化学异常在农业、环境、地质找矿等方面的应用目标,各类异常圈定时可考虑以下因素:
环境类异常研究区域以经济发达、人口稠密、环境问题较为突出的地区为主,以环境严控指标(元素)作为研究重点。主要圈定具有一定规模(分布面积>20km2)、强度与特征明显、具有环境研究和指示意义的异常。对分布面积小、含量偏低(接近异常下限值)、异常点分布分散、表层与深层土壤元素含量差别不显著、特征不明显、环境指示研究意义不大的异常不再圈定。对含量显著高于异常下限值,人类生活、生产活动产生环境污染明显的高含量样点作为孤高异常点处理。
农业营养及有益元素丰缺异常,以农业地质背景与土壤特征为基础,圈定分布面积较大(>50km2)的具有区域研究意义的地球化学异常。
矿产资源类地球化学异常圈定原则:①圈定区域为基岩区或浅覆盖区;②深层土壤同样有异常显示(有根);③成矿地质条件较为有利,具有一定的找矿远景与潜力。采用区域地球化学勘查方法圈定这类异常。
(3)异常属性描述
描述各个异常的属性特征,包括异常元素种类、面积范围、地理位置、水平分布形态、垂向延伸、浓度分带、浓集中心、元素组合、异常衬度、极值、变异系数,以及产出地质背景、自然和人文环境等,并采用适当的分类方案进行异常排序、分类分级,按照一定的准则或程序进行异常编号,并按元素种类、异常面积与衬度、异常位置(从上到下,从左到右)登记在册。
(三)异常研究
1.土壤异常的形成
异常圈定、编号登记之后,根据异常元素组合、异常空间分布、地质背景、景观环境、工农业生产、污染源分布,初步判断异常成因,评价异常的地质、生态、环境意义。由于土壤元素来源多样,累积富集或淋失贫化影响因素众多,分析异常成因时需考虑以下因素。
(1)地质背景与成土母质
尽管,成壤过程中元素经历了活化、迁移、重分配的复杂过程,但地质背景条件、成土母质组成仍然是决定土壤地球化学特征的最重要因素之一。成土母质来源不同、沉积类型及环境条件不同(冲积、洪积、湖沼相、海积等)对原始沉积物的矿物组成、元素含量以及理化特征有重要影响,由地质背景条件、成土母质类型所引起的土壤异常,可称为原生异常。
(2)表生地球化学作用
土壤是成土母质经历长期复杂的物理、化学、生物等综合作用的结果,元素经历了活化迁移、淋失贫化、次生富集等作用过程,在土壤垂直方面上产生重分配,在水平方向上则可能形成次生异常。例如,近地表土层的粘土化作用、有机质富集作用、植物根系的吸收与枝叶残落均有利于某些微量元素在表层土壤中的积聚富集。土壤类型及理化性质的空间分异,同样可导致次生元素异常的产生,如碱性土壤有利于元素淀积富集,红壤化酸性土壤则有利于多种微量元素的淋失贫化。
(3)环境污染的成因
当今人类社会各种活动所产生的污染影响复杂多样,包括金属矿产的开采、运输、冶炼、加工使地壳深部元素大量进入地表环境;煤炭、石油等化石燃料的大量开采利用,工业“三废”,城镇垃圾与污水排放,汽车尾气等工业及交通运输污染;固体废弃物及城市垃圾农用、污水灌溉、大气干湿沉降以及化肥、农药、有机肥、污泥施用等农业生产污染。各种污染物经由大气、水等各种介质,逐渐累积富集于土壤、地表沉积物。
工农业生产、居民生活、交通运输等人类生产与生活活动构成了一系列的点状、线性、面型污染源,污染所引起的异常形态、强度等特征取决于污染程度、污染物迁移方式。不同类型污染物的元素组合不同,工业活动排放的污染元素参见表1-1。危害性较大的污染元素包括Hg、Gd、Pb、Cu、Zu、Cr、Ni、As、F、Mn、Ag、Tl、Sn、N、P、Se等。
土壤元素来源复杂多样,实际研究时应充分考虑多种作用机制的影响,以系统、历史、动态的观点分析异常成因,预测土壤环境的变化趋势。
2.异常成因的判别方法
(1)异常空间分布
异常空间分布与异常物源有着必然的空间关系,分析异常元素组成、地理分布、浓集中心等基本特征,及其与地质环境背景、土壤理化性质、环境污染源的空间关系,有助于剖析异常成因,追踪异常物质来源。
首先,原生异常在空间分布上与特定的地质背景、沉积环境条件具有空间相关关系,在物质组成上与原始沉积物组成比较接近。因此,综合分析异常分布及物质组成与基岩地质、第四纪地质、水文地质、土壤环境、地形地貌、植被的关系,是正确区分异常属性的基础。
其次,地形地貌、地质、土壤、水文、气候、景观、植被等环境条件具有空间分异性,因而元素表生地球化学行为也存在空间分异性,作用方式与强度不同的富集或贫化作用可能产生地球化学异常。显然,次生地球化学异常的判断需要充分考虑影响元素表生行为的诸多景观环境要素、土壤理化环境条件。
再者,人为污染引起的异常同样与污染源存在着特定的空间关联性。人为污染物类型包括气、液、固,排放方式包括点、线(如河流)、面(如大气扩散),因此,根据污染物迁移分散规律,就异常与污染源空间分布关系,可以初步推断异常成因。分析厂矿、企业、居民点的类型、规模、分布,及其污染排放类型(有机污染物或无机元素)、污染物形态类型(气、液、固)、排放量(年排放量)与异常物质组成、空间分布的关系,是异常成因分析的重要内容。
(2)异常元素组合特征
异常成因及其物质来源不同,决定了异常元素组合特征的不同。因此,研究异常元素组合特征、空间分布,及其与地质背景、环境条件、污染源(厂矿企业、城镇居民区、交通运输、农业生产)的内在联系,如异常元素组合及其与土壤有机碳、pH值、宏量元素的关系,为异常成因及异常源的推断提供依据。
异常元素组合特征对判别污染源具有重要指示作用。例如,德国柏林市土壤调查表明(Manfred Birke et al.,2000),Al、K、Na、Rb、Zr、Nb、Ti的分布及其富集主要与自然地质作用或成壤作用有关,反映了下伏地层组成特征;工业区具有明显的Cu-Zn-Pb-Hg-Sn-Ni污染组合;与其地质背景相比,工业区和商业区显著富集Pb、Hg、Ca,电导率增强;城市区明显富集与人类活动有关的Cd、Ni、Cu、Hg、Pb、Sn、Th、Tl元素;居民区、大量施用化肥与污泥的农业区则富集Cd、Cr、V、P。
(3)表层与深层土壤元素含量对比
表层与深层土壤受成壤改造作用的程度不同。深层土壤更大程度上反映了原始沉积物的组成;而表层土壤元素组成与含量受表生作用的影响较大;同时,人类活动对深层和表层土壤的影响程度也不同,活动性较弱的重金属元素进入土壤后往往首先淀积富集于表层土壤。因此,对比表层和深层土壤元素分布及含量变化,有助于断定异常成因。
在特定的地球化学景观区,尤其是地形开阔平缓、沉积物源和沉积环境比较均一、植被类型相近的第四系冲洪积平原区,对于某个特定的元素而言,成壤过程中淋滤贫化或淀积富集程度基本相同,即表层与深层土壤中元素含量比值(富集系数)趋近常数,一些元素的大范围表层弱富集很可能与表生作用有关。由于重金属在土壤中的迁移能力一般较弱,特定层位的重金属富集,大多同该层位形成的时代相关。人类历史上采矿冶炼排放的重金属大多保存于相应时代的沉积层中;而近代大气沉降、污水灌溉、肥料农药施用所带入土壤的重金属则大多聚积于表层土壤。
因此,综合表层与深层土壤元素含量比值、不同层位异常空间分布、土壤理化性质(如质地、有机质、pH值等)等信息,可以初步推断土壤异常的成因:属于地质高背景(与成土母质有关)的原生异常,还是次生富集作用所形成的表生异常,或是人为污染叠加引起的污染异常。当局部地段土壤元素富集系数超出正常波动范围,往往是人为污染的结果。同深层土壤异常相对比,可以排查成土母质或地质背景(矿化)对表层土壤异常的影响,判断异常是否“有根”,从而区分污染异常与原生异常。
对比表层与深层土壤元素含量时,需要考虑元素表生行为(活动性大小)、土壤理化性质、污染作用的时间与强度等因素。如Swennen等对比利时和卢森堡河漫滩沉积物剖面研究发现,一些地区重金属富集与沉积母质富含粘土有关,个别地区元素富集于深层土壤是由于表层土为低有机质砂质土,土壤元素由表层向深部淋溶所致。
3.异常研究
土壤沉积物、水、植物等地表环境介质中的元素来源于自然地质背景、表生地球化学作用以及人类活动污染等,并在特定环境条件下形成地球化学异常。根据元素的农业、环境、地热、医学及人体健康、找矿勘查、沉积环境指示意义,结合异常查证工作,可以开展农业、环境、地方病、矿勘资源潜力等各方面应用研究。
Ⅲ 剔除“异常值”的一般原则是啥
在处理实验数据的时候,我们常常会遇到个别数据值偏离预期或大量统计数据值结果的情况,如果我们把这些数据值和正常数据值放在一起进行统计,可能会影响实验结果的正确性,如果把这些数据值简单地剔除,又可能忽略了重要的实验信息。这里重要的问题是如何判断异常值,然后将其剔除。判断和剔除异常值是数据处理中的一项重要任务,目前的一些方法还不是十分完善,有待进一步研究和探索。异常值outlier:指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。所谓物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断,随时剔除。统计判别法是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。当物理识别不易判断时,一般采用统计识别法。
Ⅳ spss 异常值剔除 用什么方法
我常用一下方法:
1、可以通过“分析”下“描述统计“下“频率”的”绘制“直方图”,看图发现频数出现最少的值,就可能是异常值,但还要看距离其它情况的程度。
2、可通过“分析”下的“描述统计”下的“探索”下的“绘制”选项的“叶茎图”,看个案偏离箱体边缘(上端、下端)的距离是箱体的几倍,“○”代表在1.5-3倍之间(离群点),“*”代表超过3倍(极端离群点)。
3、可以通过“分析”下“描述统计“下“描述”下的选项“将标准化存为变量Z”,选择相应的变量,“确定”。将生成新变量,如果值超过2,肯定是异常值。
Ⅳ 异常数据剔除
Hough 变换拟合直线,不过这个是数字图像处理里面比较专业的知识。怕是...
我可以编写程序,来帮你处理该问题,有兴趣可以找我
补充: 我想知道LZ想做什么,简单方法是这样做:
1。对于线性数列,求出所有相邻两树差,得到一个新的数列,然后统计新数列的众数(就是出现最多的那个)得到线性数列的公差。
2。然后假设第一个个数是非异常数字。
3。假设数据不断加公差,看看绝大大多数是不是在原线性数列中,分情况:
4。若是 : 则第一个数以及第一个数+公差与原数列相同的元素均为非异常数据,其他则为异常数据。
5。若不是:则第一个数为异常数列,在假设第2个非异常数据,返回到第3步。一直找到满足条的的数。
注 : 异常数据毕竟是少数,计算次数与线性数列内元素个数正相关。假设个数为n
最小计算次数;2*n
最大计算次数:n*(n-1)
理论平均: n*log(n)
在补充 :
实验数据其实一般用图表,把所有元素对应点放在一张图上,找直线,使最多点落在直线上,不在直线上的数据去掉就可以了
Ⅵ 留一法交叉验证的详细步骤和异常值剔除。
建议建立两个指标,一个是平方和指标,一个是对应的MAXE指标,根据MAXE和平方指标来综合考虑剔除异常值(加权法)。。。
Ⅶ 异常值处理
异常值处理的常用方法:直接将该条观测删除在SPSS软件里有2种不同的删除方法,整条删除和成对删除。
Gn——格拉布斯检验统计量:
确定检出水平α,查表(见GB4883)得出对应n,α的格拉布斯检验临界值G1-α(n)。
当Gn>G1-α(n),则判断Xn为异常值,否则无异常值。
给出剔除水平α’的G1-α’(n),当当Gn>G1-α’(n)时,Xn为高度异常值,应剔除。
测区混凝土强度标准差:
取检出水平α为5%,剔除水平α’为1%,按双侧情形检验,从附表中查得检出水平α对应格拉布斯检验临界值G0.975,剔除水平α’对应格拉布斯检验临界值G0.995。
若Gn>Gn’,且Gn>G0.975,则判断fn为异常值,否则,判断无异常值;
若Gn>Gn’,且Gn>G0.995,则判断fn为高度异常值,可考虑剔除;
若Gn’>Gn,且Gn’>G0.975,则判断f1为异常值,否则,判断无异常值;
若Gn’>Gn,且Gn’>G0.995,则判断f1为高度异常值,可考虑剔除。
以上内容参考:网络-异常值
Ⅷ 方法剔除异常值,是不是需要循序反复进行多次
在回弹法检测砼强度中,按批抽样检测的测区数量往往很多,这就不可避免出现较多的检测异常值,怎样判断和处理这些异常值,对于提高检测结果的准确性意义重大。格拉布斯检验法是土木工程中常用的一种检验异常值的方法,其应用于回弹法检测砼强度,能有效提高按批抽样检测结果的准确性。