翻译文章

【翻译文章】放大补充信息增加数据采集

本文翻译：wangchunchun 校稿：xy_persist

放大补充信息，增加数据采集

　　作者：克里斯汀•anderson-cook和芦璐

　　通常，在有些情况下，你可能想从一个有限母集团中得出一个有代表性的样本，从而对其的某些分布状况进行特征描述。

　　要记住这样的具有代表性的样本是要在母集团中具有典型性，跟整个母集团具有很多共同的特征。另外在技术上，一个有代表性的样本意味着在母集团内的每一个参数都跟选定的样本有一样的概率分布。

　　在最近的生产大环境下，更倾向于找出具有代表性的特征来表征产品，而不是对产品进行全检。为了更好的评估产品的属性（如密度），标准的做法是从最后生产的部品中用简单随机的方法抽取样本。

　　每天抽取样本并对样本进行测量，用来总结当天的生产状况。然而对部品进行密度测量成本高，且耗费时间，因此更倾向于使用更有效的抽样流程来提高测量的准确度而不是增大现有样本（样本大小为16）。

　　首先，目前采用的抽样计划的一些细节如下：简单随机抽取样本（SRS），你能统计母集团中所有部分的数量（在这个例子中，一天的产量）然后使用一个随机数生成器（几乎任何统计软件程序都能实现）从母集团中抽取期望大小的样本。

　　这是一个既公平又简单的方法来确保所有项目都同样有可能被选中，接下来，这样抽取样本的方法就增加了所抽取的样本与母集团具有相同的属性，并能很好的表征母集团特征的可能性。

　　提高精度

　　回到倾向性的问题：有办法获得更精确的产品密度测量数据而不增加抽样样和测试的费用吗？原来，在生产过程的初期进行初步测量跟产品的最终重量有某些相关性。

　　图1为最终密度Y相对于尺寸X的散点图，在某一天进行全检。图2为全检当天300个产品尺寸测量值X分布的直方图。

图1

图2

　　长期的数据表明两组数据之间的相关系数大约是0.74。获得的尺寸x的测量数据费用较低，而且已经作为评估流程的一部分进行过程控制。此外，采用这种方式进行产品跟踪更直接。

　　在抽样调查中用来提高样本质量的一般方法是分层抽样法（STS）。使用一些补充信息将母集团进行分层，这些子集团是整个母集团的一部分，从每一层别中抽取一定数目的元素，这些元素的概率要与其在整个母集团中的概率保持一致。

　　在这种抽样设计法中，样本单位进行加权，样本均值是母集团均值的无偏估计。当我们按照组别的均值分布不同来把数据分层为同质的组，样本均值的评估更倾向于得到比用SRS方法更精确的结果。我们做适当的调整后将这种方法做到我们的生产过程中，试图把这种优势放大。

　　图1和图2中的数据显示如何使用合理的分层法进行样本抽样来说明这一方法有效。图2的直方图，把母集团中尺寸X测量值的总数对样本进行分组，每组的数量相等。

　　例如，如果你想构造4组包含75个数据的数组，将75个单元中X的最小值作为第一组，X第二小的值作为第二组，一直这样排列下去。因此，每一组都代表当天生产的产品母集团数据的1/4。

　　然后，从每一个数组中抽取1/4的数据构成一个新的样本，样本的数量与进行简单随机抽样的样本数相同。在这个例子中，你想要的样本大小为16，所以从每个子组中各随机抽取4个数据构成新的样本。

　　更详细的过程

　　当然，如果需要知道X的分布状况以及生产流程保留样品的跟踪的话，抽样过程会更加复杂，但是这样做提高精度了吗？

　　表1中为以图1和图2中所示的某一天测量值为基础建立模型分析的结果，用以说明使用这样复杂的抽样过程得到的密度分析数据的优点。因为这天进行了全检，所以我们能够知道母集团特征的真值。

表1

　　为了坚持不同的抽样策略，我们从同一个母集团中多次抽取16个样本，并计算平均值，中央值以及10%分位数（质量抽样的通常方法）。

　　表1中显示的结果为通过大量样本（10000个）分析得到的这些数据的平均值以及标准偏差。

　　因为所有的方法（简单随机抽样法，两层法与四层法）都能得到有代表性的样本，你会期望所有的样本都给出无偏（无差异）的结果。这似乎是真实的，因为这样跨组抽取样本的均值都与母集团的真值接近。一旦组间有明显的差异时，就说明取样的标准偏差有差异。

　　在每一种情况下，当我们从一个层级到两个和四个层级，我们估计的精确度提高。注意到，与标准偏差减小的形式一样，均值、中位数，1/10分位数都发生这样的变化，着表明你更倾向于看到这种改善而不管给定的案例中特征分布有多么重要。

　　那么这是怎么发生的？当你进行简单随机样本抽取，所有的项目都同样可能被选中。但对于特定样本，你可能会选稍大或稍小的样本。

　　采用分层法，你在从一个母集团抽取多单元样本时就不容易造成样本的失衡。分层法有助于，使所有的样本更相似，进而转化成具有更高一致性的评估样本，因而使抽样计划更有效。

　　在获得Y值时，随着分层数的增加，过程控制点就随之增加，这些条件限制了样本大小的变动，显然，这需要更多的信息，执行起来也更为复杂，但它可以进一步提高精度

　　分层抽样法与简单随机抽样法对比

　　现在，你所要收集的X值只跟密度Y有一定的相关性，相关系数为0.74。表2显示了使用分层抽样法比简单随机抽样法效率更高，标准数据将采用STS法和SRS法的标准偏差的相对样本大小进行对比，对于整个母集团来说，X和Y之间的相关系数差异更大。

表2

　　例如，采用SRS法对均值的标准偏差进行评估，其相关系数为0.91，而采用STS法进行分析其相关系数为0.54，只有SRS的一半。

　　你可以看到，随相关性的增大（接近1或- 1），X的分层与Y的子组符合度更为精确，标准偏差就会急剧减小。

　　还注意到，随着相关的重要性性增加，不同特征分布的Y能得到不一样的结果，这对中心的特征分布（平均值和中央值）而言比尾端的影响更大。因此，对影响能预测最终密度结果的波动解释的信息越多，分层抽样法能显示出来的优势越明显。

　　因此，是用这种抽样方法能使预期目标保持相同的样本大小。但通过更复杂的抽样计划来选取抽样单元，估计的精确度提高。

　　在这种抽样过程中，主要的费用是按照兴趣进行特征值的测试，这是该方法的一个优势。更复杂的抽样计划在时间和精力方面相对于进行更多单元测量而言，花费的费用也更低。

　　在不同的情况下应用这种方法时，必须在实施更加复杂的抽样计划（创建组和跟踪部品）和提高结果精度之间进行平衡。

　　但我们知道，放大附加信息可以提供一个有用的优势让你考虑更多选择。

　　ChristineManderson-cook是位于新墨西哥洛斯阿拉莫斯的国家实验室的研发科学家。她获得安大略滑铁卢大学统计学博士学位。Anderson-cook是美国统计协会会员，也是美国质量协会的高级（资深）会员。

　　芦璐是洛斯阿拉莫斯国家实验室的博士后研究员。她获得美国爱荷华州立大学统计学博士学位。

0

2012-05-10

1 个评论

游客无法查看评论和回复, 请先登录或注册

TA的首页 > 文章

【翻译文章】放大补充信息增加数据采集

1 个评论

发起人

推荐文章

文章状态

TA的首页 > 文章

【翻译文章】放大补充信息 增加数据采集

1 个评论

发起人

推荐文章

文章状态

【翻译文章】放大补充信息增加数据采集