直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
直方图是数值数据分布的精确图形表示。这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。这些值通常被指定为连续的,不重叠的变量间隔。间隔必须相邻,并且通常是(但不是必须的)相等的大小。
直方图也可以被归一化以显示“相对”频率。这时它显示的是不同类别中的每个案例的比例,其总高度等于1。
直方图又称质量分布图,它是表示资料变化情况的一种主要工具。用直方图可以解析出资料的规则性,比较直观地看出产品质量特性的分布状态,对于资料分布状况一目了然,便于判断其总体质量分布情况。
在制作直方图时,牵涉统计学的概念,首先要对资料进行分组,因此如何合理分组是其中的关键问题。按组距相等的原则进行的两个关键数位是分组数和组距。是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图,如图1所示。
直方图的常见作用有以下三点:
(1)显示质量波动的状态;
(2)较直观地传递有关过程质量状况的信息;
(3)通过研究质量波动状况之后,就能掌握过程的状况,从而确定在什么地方集中力量进行质量改进工作。
在统计数据时,按照频数分布表,在平面直角坐标系中,横轴标出每个组的端点,纵轴表示频数,每个矩形的高代表对应的频数,称这样的统计图为频数分布直方图。
相关概念:
组数:在统计数据时,我们把数据按照不同的范围分成几个组,分成的组的个数称为组数。
组距:每一组两个端点的差。
①能够显示各组频数分布的情况;
②易于显示各组之间频数的差别。
作直方图的目的就是通过观察图的形状,判断生产过程是否稳定,预测生产过程的质量。
1判断一批已加工完毕的产品;
搜集有关数据。
直方图将数据根据差异进行分类,特点是明察秋毫地掌握差异。
2在公路工程质量管理中,作直方图的目的有:
①估算可能出现的不合格率;
②考察工序能力估算法
③判断质量分布状态;
④判断施工能力;
a.抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。因此,样本数不应少于50个。
b.组数k选用不当,k偏大或偏小,都会造成对分布状态的判断有误。
c.直方图一般适用于计量值数据,但在某些情况下也适用于计数值数据,这要看绘制直方图的目的而定。
d.图形不完整,标注不齐全,直方图上应标注:公差范围线、平均值 的位置(点画线表示)不能与公差中心M相混淆;图的右上角标出:N、S、C p或 CPK.
①集中和记录数据,求出其最大值和最小值。数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上。 我们把分成组的个数称为组数,每一个组的两个端点的差称为组距。
②将数据分成若干组,并做好记号。分组的数量在5-12之间较为适宜。
③计算组距的宽度。用最大值和最小值之差去除组数,求出组距的宽度。
④计算各组的界限位。各组的界限位可以从第一组开始依次计算,第一组的下界为最小值减去最小测定单位的一半,第一组的上界为其下界值加上组距。第二组的下界限位为第一组的上界限值,第二组的下界限值加上组距,就是第二组的上界限位,依此类推。
⑤统计各组数据出现频数,作频数分布表。
⑥作直方图。以组距为底长,以频数为高,作各组的矩形图。
(1)收集数据。作直方图的数据一般应大于50个。
(2)确定数据的极差(R)。用数据的最大值减去最小值求得。
(3)确定组距(h)。先确定直方图的组数,然后以此组数去除极差,可得直方图每组的宽度,即组距。组数的确定要适当。组数太少,会引起较大计算误差;组数太多,会影响数据分组规律的明显性,且计算工作量加大。
(4)确定各组的界限值。为避免出现数据值与组界限值重合而造成频数据计算困难,组的界限值单位应取最小测量单位的1/2。分组时应把数据表中最大值和最小值包括在内。
第一组下限值为:最小值-0.5;
第一组上限值为:第一组下限值加组距;
第二组下限值就是第一组的上限值;
第二组上限值就是第二组的下限值加组距;
第三组以后,依此类推定出各组的组界。
(5)编制频数分布表。把多个组上下界限值分别填入频数分布表内,并把数据表中的各个数据列入相应的组,统计各组频数据(f)。
(6)按数据值比例画出横坐标。
(7)按频数值比例画纵坐标。以观测值数目或百分数表示。
(8)画直方图。按纵坐标画出每个长方形的高度,它代表取落在此长方形中的数据数。(注意:每个长方形的宽度都是相等的。)在直方图上应标注出公差范围(T)、样本容量(n)、样本平均值(x)、样本标准偏差值(s)和x的位置等。
现以某厂生产的产品重量为例,对应用直方图的步骤加以说明:
(1)收集数据。作直方图的数据一般应大于50个。本例在生产过程中收集了100个数据,列于表一中。
(2)确定数据的极差(R)。用数据的最大值减去最小值求得。本例最大值X max=48(cg),最小值Xmin=1(cg),所以极差R= 48-1=47(cg).
(3)确定组距(h)。先确定直方图的组数,然后以此组数去除极差,可得直方图每组的宽度,即组距。组数的确定要适当。组数太少,会引起较大计算误差;组数太多,会影响数据分组规律的明显性,且计算工作量加大。组数(k)的确定可参考组数(k)选用表二。
(4)确定各组的界限值。为避免出现数据值与组界限值重合而造成频数据计算困难,组的界限值单位应取最小测量单位的1/2。本例最小测量单位是个位,其界限值应取0.5。分组时应把数据表中最大值和最小值包括在内。
第一组下限值为:最小值-0.5=0.5;
第一组上限值为:第一组下限值加组距,即0.5 5=5.5;
第二组下限值就是第一组的上限值,即5.5;
第二组上限值就是第二组的下限值加组距,即5.5 5=10.5;
第三组以后,依此类推定出各组的组界。
(5)编制频数分布表。把多个组上下界限值分别填入频数分布表内,并把数据表中的各个数据列入相应的组,统计各组频数据(f)。
(6)按数据值比例画出横坐标。
(7)按频数值比例画纵坐标。以观测值数目或百分数表示。
(8)画直方图。按纵坐标画出每个长方形的高度,它代表取落在此长方形中的数据数。(注意:每个长方形的宽度都是相等的。)在直方图上应标注出公差范围(T)、样本容量(n)、样本平均值(X)、样本标准偏差值(s)和-x的位置等。
您可以通过区域直方图对一个数据集中的值在另一个数据集类中的频数分布进行研究。例如,土地利用类中的坡度分布、高程类中的降雨分布或警务区附近的犯罪分布。
区域定义为输入中具有相同值的所有区。各区无需相连。栅格和要素数据集都可用于区域输入。如果区域输入和值输入均为具有相同分辨率的栅格,则可直接使用它们。如果分辨率不同,则可先应用内部重采样以使其相一致,然后再执行区域操作。
倘若输入中存在任何NoData像元,重采样就可能在输出中产生比您预期更大的NoData区域。要避免此种情况,或者重新采样粗糙输入栅格,提高输入栅格的分辨率,或者在“栅格分析”环境下将像元大小设置为输入的最小值。
如果区域输入为栅格数据集,则该输入必须具有属性表。通常会自动为整型栅格数据创建属性表,但是某些情况下可能不会这样做。您可以使用构建栅格属性表来创建一个属性表。建议您仅使用栅格作为区域输入,因为这可使您更好地控制“矢量至栅格”转换。这将有助于确保您始终获得预期的结果。
如果区域输入是要素数据集,则可在内部对其应用“矢量至栅格”转换。要确保转换结果与值栅格完全对齐,建议您检查环境设置和栅格设置中的范围和捕捉栅格是否设置正确。
由于内部栅格必须具有属性表,因此在转换中不创建属性表的情况下将会发生错误。如果发生此错误,则使用要素转栅格、面转栅格、点转栅格或折线转栅格直接转换要素数据集。按先前提示中所述内容为其生成属性表,然后使用生成的栅格作为“区域”输入。
如果区域输入为要素相对较小的要素数据集,则需要牢记,信息的分辨率需要适合于值栅格的分辨率。如果单个要素的区域相似于或小于值栅格中单个像元的区域,则在要素转栅格转换过程中,某些区域可能不会显示。要对此进行显示,需尝试使用适当的要素转栅格转换工具将要素数据集转换为栅格,然后将分辨率指定为值栅格的分辨率。通过此转换产生的结果会指明区域操作的默认输出将是什么。
如果输出中的结果比您可能已预期的少,则需要确定表示要素输入细节的适当的栅格分辨率,然后使用此分辨率作为“栅格分析环境设置”的像元大小。
如果区域输入为点要素数据集,则其可能具有值输入栅格的任何特定像元内所含的多个点。对于这种像元,区域值将通过具有最高要素ID的点来确定。
如果区域要素输入具有叠置的面,则无法为每一个单独的面执行区域分析。因为要素输入已转换为栅格,所以每个位置只能拥有一个值。
另一种方法就是要为每个面区域反复进行分区统计并核对结果。
区域字段必须为整型或字符串类型。
在指定输入区域数据时,默认区域字段将为第一个可用的有效字段。如果无其他有效字段存在,则ObjectID字段(如OID 或FID)将为默认字段。
输入值栅格上的像元属于像元中心所在的区域。在此情况下,这些区域是在向栅格和重新采样进行了任何必要转换后的区域。
在直方图中,每个区域的类(条柱)的数量由输入赋值栅格确定。
如果指定图层,则图层的符号系统定义类的数量。
如果指定数据集,则在默认情况下将有256个类,除非输入是具有少于26个唯一值的整型(在此情况下,它将是唯一值的总数)。
默认情况下不生成区域直方图。要在工具运行时创建区域直方图,可指定输出图形名称。
该图形只是临时图形(在内存中)。要创建该图形的永久版本,可使用保存图表工具创建.grf图形文件,或者以该工具中提供的一种其他格式进行创建。
a.抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。因此,样本数不应少于50个。
b.组数k选用不当,k偏大或偏小,都会造成对分布状态的判断有误。
c.直方图一般适用于计量值数据,但在某些情况下也适用于计数值数据,这要看绘制直方图的目的而定。
d.图形不完整,标注不齐全,直方图上应标注:公差范围线、平均值的位置(点画线表示)不能与公差中心M相混淆;图的右上角标出:N、S、C p或CPK.
①集中和记录数据,求出其最大值和最小值。数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上。 我们把分成组的个数称为组数,每一个组的两个端点的差称为组距。
②将数据分成若干组,并做好记号。分组的数量在5-12之间较为适宜。
③计算组距的宽度。用最大值和最小值之差去除组数,求出组距的宽度。
④计算各组的界限位。各组的界限位可以从第一组开始依次计算,第一组的下界为最小值减去最小测定单位的一半,第一组的上界为其下界值加上组距。第二组的下界限位为第一组的上界限值,第二组的下界限值加上组距,就是第二组的上界限位,依此类推。
⑤统计各组数据出现频数,作频数分布表。
⑥作直方图。以组距为底长,以频数为高,作各组的矩形图。
作直方图是的目的是为了研究产品质量的分布状况,据此判断生产过程是否处在正常状态。直方图为QC七大工具之一。因此在画出直方图后要进一步对它进行观察和分析。在正常生产条件下,如果所得到的直方图不是标准形状,或者虽是标准形状,但其分布范围不合理,就要分析其原因,采取相应措施。
(1)通过直方图判断生产过程是否有异常。对直方图有些参差不齐不必太注意,主要应着眼于图形的整个形状。常见的直方图分布图形大体上有六种。
①理想的图形;
②多是因为测量和读数有问题或是数据分组不当所引起的;
③多是因加工习惯造成的;
④多是加工条件的变动造成的;
⑤多是两种不同生产条件的数据混在一起造成的;
⑥多是由于生产过程中某种缓慢的倾向起作用所至。
(2)运用直方图勘量生产的质量状况。将直方图与公差范围相比较,看直方图是否都落在公差要求的范围之内,可以提高生产的质量状况。这种对比大体上存在六种情况。
①理想的情况;
②经济性不好,需降低加工精度;
③需要采取措施适当缩小分布;
④过分偏离公差中心,可能造成废品;
⑤完全不留余地,容易出现废品,应采取措施调整
⑥已经产生废品,应停产检查。
正常型是指过程处于稳定的图型,它的形状是中间高、两边低,左右近似对称。近似是指直方图多少有点参差不齐,主要看整体形状。如图2:
异常型直方图种类则比较多,所以如果是异常型,还要进一步判断它属于哪类异常型,以便分析原因、加以处理。下面介绍几种比较常见的:
在直方图旁边有孤立的小岛出现,当这种情况出现时过程中有异常原因。如:原料发生变化,不熟练的新工人替人加班,测量有误等,都会造成孤岛型分布,应及时查明原因、采取措施。
当直方图中出现了两个峰,这是由于观测值来自两个总体、两个分布的数据混合在一起造成的。如:两种有一定差别的原料所生产的产品混合在一起,或者就是两种产品混在一起,此时应当加以分层。
当直方图出现凹凸不平的形状,这是由于作图时数据分组太多,测量仪器误差过大或观测数据不准确等造成的,此时应重新收集数据和整理数据。
当直方图像高山的陡壁向一边倾斜时,通常表现在产品质量较差时,为了符合标准的产品,需要进行全数检查,以剔除不合格品。当用剔除了不合格品的产品数据作频数直方图时容易产生这种陡壁型,这是一种非自然形态。
偏态型直方图是指图的顶峰有时偏向左侧、有时偏向右侧。
由于某种原因使下限受到限制时,容易发生偏左型。如:用标准值控制下限,摆差等形位公差,不纯成分接近于0,疵点数接近于0或由于工作习惯都会造成偏左型。
由于某种原因使上限受到限制时,容易发生偏右型。如:用标准尺控制上限,精度接近100%,合格率也接近100%或由于工作习惯都会造成偏右型。
当直方图没有突出的顶峰,呈平顶型,然而形成这种情况一般有三种原因。A、与双峰型类似,由于多个总体、多总分布混在一起。B、由于生产过程中某中缓慢的倾向在起作用,如工具的磨损、操作者的疲劳等。C、质量指标在某个区间中均匀变化。
当直方图的形状呈正常型时,即工序在此时刻处于稳定状态时,还需要进一步讲直方图同规格界限(即公差)进行比较,以分析判断工序满足公差要求的程度。
这里规格的上限用Tu表示,Tl为规格的下限,公差中心M=,样本的分布中心为,样本的标准差为s。
下面将与规格界限比较的常见几种典型状态,及其分析、控制要点结合图型加以说明。
图型对称分布,样本分布中心与公差中心M近似重合,分布在公差范围内且两边有一定余量,是理想状态。因此,可保持状态水平加以监督。
样本分布中心比公差中心M有较大偏移,这种情况下,稍有不慎就会出现不合格。因此要调整分布中心与公差中心近似重合。
样本分布中心与公差中心M近似重合,但两边与规格的上、下限紧紧相连,没有余地,表明过程能力已到极限,非常容易出现失控,造成不合格。因此,要立即采取措施,提高过程能力,减少标准偏差。
样本分布中心与公差中心M近似一致,但两边与规格上、下限有很大距离,说明工序能力出现过剩,经济性差。因此,可考虑改变工艺,放宽加工精度或减少检验频次,以降低成本。
样本中心与公差中心M近似重合,但分布已超出上、下限。这时不合格已经出现。因此,要采取措施提高加工精度,减少标准偏差。
样本中心与公差中心M有偏移且分布有部分已超出上、下限。这种情况比较复杂。首先,调整分布中心,使之与公差中心近似重合,如果,调整后,不合格消失,说明不合格主要是由于某个系统原因造成的,这时,在深入分析过程能力是否需要继续提升等。其次,如果经调整,分布中心与公差中心已近似重合,但仍有不合格,则说明过程能力已严重不足,样本分散程度过大,要继续提高加工精度,减少标准偏差。
摄影中的直方图横坐标是表示亮度分布,左边暗,右边亮,纵坐标表示像素分布。直方图能够显示一张照片中色调的分布情况,揭示了照片中每一个亮度级别下像素出现的数量,根据这些数值所绘出的图像形态,可以初步判断照片的曝光情况,直方图是照片曝光情况最好的回馈。无论照片是有丰富的高光表现还是曝光过度了,还是有饱满的细部暗调,或者是细节根本分辨不清,直方图都能很直观的显示。
当今的大多数数码相机都有内置的直方图显示功能,有单独显示的有叠加在图像上显示的;当拍完一张照片的时候,就可以开始使用直方图来了解整个图像的色调范围。在拍摄期,摄影师就可以用它来了解照片是不是控制在想要的曝光范围内。
从理论上说,一张曝光良好的照片,在不同的亮度级别下细节都应该非常丰富,各亮度值上都有像素分布,像一座起伏波荡的小山丘,为了方便观察,把直方图划分为5个区:每个区代表一个亮度范围,左边为极暗部、暗部,中间为中间调,右边是亮部和极亮部,根据这些不同亮度范围下像素出现的数量,对于高调照片(明亮调子且细节丰富的图片)山丘的峰顶应该集中在直方图右边的亮部区,对于低调照片(深色调子且细节丰富的图片)山丘的峰顶应该集中在直方图左边的暗部区域,如果山丘覆盖了整个区域,说明曝光情况正好且细节清晰可见。
图像直方图描述了图像中每个亮度值DN的像元数量的统计分布。它通过每个亮度值的像元数除以图像中总得像元数,即频率直方图。在很多遥感应用中,直方图是遥感图像中所包含的信息的一种有用的图示。每个波段的直方图能提供关于原始图像质量的信息,如其对比度的强弱,是否多峰值等。
直方图均衡化,是通过使用累积函数对灰度值进行“调整”以实现对比度的增强。直方图均衡化处理的“中心思想”是把原始图像的灰度直方图从比较集中的某个灰度区间变成在全部灰度范围内的均匀分布。直方图均衡化就是对图像进行非线性拉伸,重新分配图像像素值,使一定灰度范围内的像素数量大致相同。
简单说就是把给定图像的直方图分布改变成“均匀”分布直方图分布。其缺点:①变换后图像的灰度级减少,某些细节消失;②某些图像,如直方图有高峰,经处理后对比度不自然的过分增强。
直方图拉伸的主要作用就是将灰度间隔小的图像的灰度间隔扩大,以便于观察图像。直方图拉伸是通过对比度拉伸对直方图进行调整,从而“扩大”前景和背景灰度的差别,以达到增强对比度的目的。
直方图匹配又叫直方图规定化,是指把原图像的直方图变换为某种指定形态的直方图或某一种参考图像的直方图,然后按照已知直方图调整原图像各个像元的灰度值,最后得到一幅直方图匹配的图像。