数据线性插值法计算举例有哪些?



我们知道一般都是从多个点来画出直线,那么如果点的排列并非能够用一条直线来拟合,但是又需要找到这样一条线来拟合多个坐标轴上面的点,那么一般都是采用曲线进行拟合。但是如何在众多密集且离散的分布点中找到一条曲线来尽可能多的去拟合多个点呢?这就需要我们采取相应的算法或者策略。

我们需要使这条直线到各个数据点之间的误差最小且更可能的逼近,那么宏观来看该算法应该是全局最优算法,所以根据此我们使用最小二乘法来拟合离散的点尽可能使这些数据点均在离此曲线的上方或下方不远处。它既能反映数据的总体分布,又不至于出现局部较大的波动。我们现在我们来从零开始探索该算法。

本篇博客的愿景是希望我或者读者通过阅读这篇博客能够学会方法并能实际运用,而且能够记录到你的思想之中。希望读者看完能够提出错误或者看法,博主会长期维护博客做及时更新。


在工程实际应用和科学实验中通过测量得到的一组离散的数据点,为了从中找到两个变量中间的内在规律性,也就是求自变量和因变量之间的近似程度比较好的函数关系式,这类问题有插值法和曲线拟合法。这类问题的插值法和曲线拟合法,当个别数据的误差较大时,插值效果显然是不理想的,而且实验或观测提供的数据个数往往较多,用插值法势必得到次数较高的插值多项式,会出现龙格现象。这时候最优策略就是选择曲线拟合策略了。

 我们从数据出发构造一个近似函数,只要求所得的近似曲线能反映数据的基本趋势,使求得的逼近函数与已知函数从总体上来说偏差的平方和最小,这就是最小二乘法。

要从零基础了解最小二乘法,那么我们需要把支撑最小二乘法的原理和算法搞懂,首先我们要了解什么是残差。我们知道曲线拟合不要求近似曲线严格过所有的数据点,但使求得的逼近函数与已知函数从总体上来说其偏差按某种方法度量达到总体上尽可能最小。那么我们估计的曲线与真实点的差距就是残差。

我们设线性回归模型为,其中:

  • Y是有相应变量构成的n维向量
  • 回归系数的估计值,拟合值为,其中:

    在回归分析中,测定值与按回归方程预测的值之差,以表示。残差遵从正态分布。

    的标准差,称为标准化残差,以表示。遵从标准正态分布。验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。

    显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。

    通常我们构造拟合曲线,要使得残差 尽可能的小,有3中准则可供选择,具体内容如下:

  • 残差的最大绝对值最小:
  • 残差的绝对值之和最小:
  • 根据三种准则的具体形式,可以分析出前两种比较简单,而二者都含有绝对值运算,实际应用中不便于操作;基于第三种准则构造的拟合曲线方法便是曲线拟合的最小二乘法。

    我们将残差的平方和最小的原则称为最小二乘原则。

    按照最小二乘原则选取拟合曲线的方法,称为最小二乘法。

    对于如何利用最小二乘法原则来解决问题,我们可以根据我们想要的结果来看:

    在某个函数类来寻求一个函数.

    ,其中是函数类中任意函数。是待定常数。

    满足上述关系式的函数称为上述最小二乘问题的最小二乘解。

    原则:根据实际问题域所给数据点的变化规律确定。

            在实际问题中如何选择基函数是一个复杂的问题,一般要根据问题本身的性质来决定。通常可取的基函数有多项式、三角函数、指数函数。或者数据集可能本身就是一个轨迹点数据集,没有强关联的自变量因变量关系。这是要根据实际问题求解的目标调整算法。

    问题转化为求待定系数使得:

    记,那么我们知道存在极小值的情况,原函数需要存在收敛。

    证明函数收敛,则有多元函数极值必要条件有:

    对任意函数h(x)和g(x)引入记号:

    用向量内积形式表示,可得

    上式为求的法方程组,其矩阵的形式为:

    由于向量组是线性无关,故上式系数行列式

    存在唯一解:于是得到函数的最小二乘解

    对于给定的一组实验数据,互异。在函数类,且线性无关,存在唯一的函数使得关系式成立,并且其系数可以通过解法方程组得到。

    首先进行曲线拟合的话肯定需要数据分析三巨头pandas、numpy和绘图用的matplotlib

    这里我们使用案例来实现最小二乘法拟合:

    在某化学反应里,测得生成物浓度y(%)与时间t(min)的数据:

     一般我们拿到数据都是在excel和csv,直接读取就好了:

    通过绘制散点图我们很容易看出数据趋势:

    在matplotlib库中polyfit函数可以实现多项式拟合,也就是最小二乘拟合:

    # 使用polyfit方法来拟合,并选择多项式
    # 使用poly1d方法获得多项式系数,按照阶数由高到低排列
     



    当然如果需要精度更高可以增加系数:

    # 使用polyfit方法来拟合,并选择多项式
    # 使用poly1d方法获得多项式系数,按照阶数由高到低排列
     





    # 求对应x的各项拟合函数值
     









    实际问题的解决中测得的数据都不是等精度的。显然,对于精度高、权重大的数据应该给予足够的重视,在计算时,给以足够的权重,在这种情况下就要使用加权最小二乘法。


    利用最小二乘法原则上解决了最小二乘法意义下的曲线拟合问题,但在实际问题的解决时,n往往很大,法方程组往往是病态的,因而给求解带来了一定的困难。其中也有相当多的策略去优化该算法。

    如有纰漏之处,请留言指教,非常感谢

     
     
    以上就是本期全部内容。我是fanstuck ,有问题大家随时留言讨论 ,我们下期见。

     

2. 中国地质调查局武汉地质调查中心, 武汉 430205

收稿日期:; 修回日期:.

基金项目:国家自然科学基金项目()资助.

通讯作者:骆淼, 男, 1980年生, 副教授, 主要从事岩石物理与测井分析方面的教学和科研工作.(E-mail:)

摘要:为了对高密度电法长测线多剖面数据进行连接并使其流程规范化,本文总结了目前提出过的三种方法:(1)子剖面连接法;(2)分组误差校正法;(3)数据插值法,并对三种方法的可行性及应用效果做了分析;详细介绍了子剖面连接法的方法原理;通过对不同数据质量的测量电阻率的反演RMS值进行研究,验证了子剖面连接法的科学性及可行性;对长测线多剖面数据进行连接的具体流程进行规范化,为实际工作提供了重要的指引作用.通过实例应用说明,利用长剖面与子剖面进行联合解释,能更加直观和方便地对整条测线上的异常进行圈定和对比,能更全面、精确地认识和把握勘探区域的电性分布规律.

高密度电法是以地下岩石或矿石的导电性差异为物理基础,通过观测和研究人工建立的地下稳定电流场的分布规律,进而达到找矿或解决某些地质问题的一种电探方法.高密度电法的基本原理与传统的电阻率法相同,其特点是设置了较多的电极,观测密度大,现场测量时按照一定的电极间距一次性把所需要的电极全部布设,不需要跑极,不用移动主机,自动化程度较高等(;).由于一条测线上拥有较多的电极,高密度电法兼具电测深和电剖面的功能,测量的数据点多,提供的地电信息量丰富(;罗延钟等,2005;).目前,高密度电法技术发展已经较为成熟,在资源探矿、城市规划、工程地质勘察、环境地质评估、工程质量检测、考古等方面得到了广泛的应用(;;).

高密度电法在实际工作中,一条长测线往往不只一个剖面,而是由多个剖面组合来勘探测线下方的电性分布情况().但是,受系统固有的剖面探测长度和地形等因素限制,一条长测线通常要测量多个子剖面,如果每条子剖面独立进行反演,这样会导致异常色调、反演精度、图形显示等都不统一,引起整条测线上的异常不能同时解释,勘探区电性认识不够全面客观,产生一定的误差().问题解决的关键就是将子剖面的数据拼接成一条长剖面数据,然后整体进行反演,得到整条长剖面的反演模型电阻率断面图.利用长剖面和子剖面进行联合解释,小区域与大背景相结合,能更有利于对整条测线上的异常进行对比和圈定,解释起来更为直观、方便;同时能更全面、更准确地把握勘探区的电性分布趋势与规律.

理论上,各子剖面重叠区地质情况完全相同,电性性质完全相同,因此在进行高密度电法长测线测量时,重叠区的数据应该完全相同.但是在实际测量中,各子剖面重叠区测量数据有时会存在较大的差异,其原因主要有:测量仪器的不稳定性;测量时间的不同;电极接地情况的不同;导线铺设问题;可能存在仪器或导线漏电现象等.因此,重叠区实际测量的电阻率包括了地下电性的变化和两次测量产生的随机误差.

地下电性的变化是电法工作中所要测量并研究的物理性质,但是重叠区数据两次测量产生的随机误差又不可避免.目前,对于长测线多剖面连接的方法,本文总结有以下三种:① 子剖面连接法,对重叠区的数据进行处理,包括取重叠区两个子剖面其中一个的数据、取重叠区数据均值、取重叠区数据均值之后进行平滑();② 分组误差校正法,对重叠区的数据进行分组误差校正();③ 数据插值法,对重叠区以及无数据区进行处理,其中重叠区处理和子剖面连接法相同,对无数据区进行插值().

子剖面连接法是目前通常采用的方法,该方法数据连接简单、方便、应用效果较好.分组误差校正法的理论基础是测量电阻率产生系统误差,然后对重叠区数据的系统误差进行校正.但是,理论和实际应用都证明重叠区数据产生的是随机误差,而不是系统误差,并且该方法计算复杂,因此其实用性和可行性有待探究.数据插值法对无数据区进行插值,通常无数据区的面积都比较大,没必要对无数据区进行插值,另外软件进行反演时也会自动对无数据区进行插值及相关处理,因此其数据的精确性、实用性有待探究.

本文对子剖面连接法进行重点研究,理论结合数据,最后通过实例,证明了其科学性、可行性以及高效性,并规范了长测线多剖面数据连接的流程及方法.

1 方法原理 1.1 高密度电法的电极装置及测量原理

高密度电法的电极装置及测量原理是进行长测线多剖面数据连接的基础.高密度电法本质上属于直流电阻率法,其基本原理与直流电阻率法完全相同,不同的是它的测量装置是一种组合式剖面装置.高密度电法装置类型已多达十几种,其中比较常用的有α、β、γ三种装置等(),根据工区的干扰情况、探寻目标的不同可以自由选择.三种装置的视电阻率计算公式分别为(;):

式中:ρsαρsβρsγ分别为α、β、γ三种装置的视电阻率(ohm.m),ΔUα、ΔUβ、ΔUγ分别为α、β、γ三种装置N和M测量点之间的电位差(V),I为供电电流(A),a为电极距(m),当点距为x时,有

是温纳装置(α装置)观测示意图,图中电极设计为60道,剖面呈现倒梯形,该剖面数据点共有570个.

1.2 子剖面连接法原理

当测线较长时,单一剖面不能覆盖,就需要布设多个子剖面,每个子剖面独立进行测量,但它们的启始电极坐标必须是以第一个子剖面为零起点的相对坐标值,经过数据处理之后,可以把多个子剖面数据拼接成一个长剖面,反演之后输出一个完整的反演模型电阻率断面图.

当采用“部分重叠排列”采集数据时(),可以把剖面倒梯形以外空白部分的数据信息部分或全部填补上,从而能更为真实地反映地下介质的电性性质.在连接子剖面时,怎么样把重叠区域的数据和坐标位置处理好,是子剖面连接法的关键.对重叠区的数据(红数据区域)进行处理,其一是取网格对应节点两个子剖面其中一个的数据值(式5);其二是取网格对应节点数据的平均值(式6);其三是网格对应节点取平均值之后再对各层数据做平滑处理.公式(5)

式中:D(i)为测线连接后的数据值;D1(a)、D2(b)、D3(c)分别为剖面1、2、3的数据值,i为连接后剖面所对应的空间位置节点编号,abc分别为连接前剖面1、2、3所对应的空间位置节点编号.

受地形或其他因素限制,当采用“无重叠排列”采集数据时(),会导致剖面倒梯形以外空白部分或部分地段的数据缺失,但为了异常解释方便和了解勘探区电性分布趋势,可以直接把子剖面连接成长剖面(式7) 并进行解释.由于其数据部分缺失,地下物质电性性质在缺失段的精确度和真实性有一定的影响.公式(7) 为

2 不同数据质量的反演RMS值研究

为了验证数据质量较差时连接结果,以及不同数据质量的连接结果的精确度,需要对不同数据质量的测量电阻率的反演RMS值进行研究.实际工作中,由于各厂家测量仪器的精度及稳定性不同、测量工区的地质条件不同、测量人员操作细节不同等原因,会造成高密度电法测量电阻率数据质量的不同,也就是我们通常所说的测量数据的好坏.测量数据质量不同是很正常也很常见的,但是不同测量数据质量是否会对长测线多剖面数据连接产生影响,这是本文这节需要研究的.

本文从大量的实测电阻率数据中随机选出3组不同数据质量的数据进行连接并反演,采用子剖面连接法对部分重叠剖面进行处理:① 取对应节点上剖面1的数据值(式5);② 取对应节点上剖面2的数据值(式5);③ 取对应节点上数据的平均值(式6);④ 取各层对应节点上数据平均值经五点三次平滑后的值.

观察,对比连接前子剖面与连接后长剖面反演的均方根误差值(RMS值)以及反演后异常位置及深度的相对误差,可以看到,子剖面连接法中的4种处理方式连接后的反演RMS值差不多;连接后反演RMS值与连接前子剖面反演RMS值差不多;子剖面数据较好时连接后反演RMS值较小,反之较大;连接后反演RMS值不会因连接前子剖面RMS值偏大而出现发散或不收敛,也就是说数据质量较差时进行长测线多剖面连接处理仍然能得到与子剖面质量差不多的反演结果.

理论结合数据,验证了高密度电法长测线多剖面连接的科学性和可行性.同时得出,为了得到精确及可信的长剖面数据,同时考虑到工作效率,野外测量时首先应该测得较好的子剖面数据,根据实际勘探目的综合考虑数据重叠采集区的范围.

由于对长测线多剖面数据连接进行研究的文章很少,更没有对其具体流程进行规范处理.本文仅仅是探索性的对长测线多剖面连接的整个处理流程进行简单说明():① 采集子剖面测量电阻率,根据勘探目的,合理及高效的选择排列重叠范围;② 对重叠区的数据进行处理,包括取重叠区两个子剖面其中一个的数据值、取重叠区数据均值、取重叠区数据均值之后进行平滑;③ 部分重叠排列或无重叠排列按照相应的公式进行子剖面连接;④ 连接后的长剖面数据利用软件(如Res2dinv)进行反演;⑤ 对长剖面反演模型电阻率断面进行修饰性处理,由于实际应用中某些测线长达数公里,利用反演软件成图不够直观、方便、美观等,可以利用软件(如Surfer)进行等值线成图处理,成图之后根据需要可以利用软件(如Global Mapper)进行标量图的矢量化并导出不同格式的图件,方便更多地质工作者利用自己熟悉的软件进行读图与解释.

为了进一步说明其应用效果,本文选取了实际应用中的一个例子.考虑到页面大小及图片显示的问题,仅选取长测线中相邻的三条子剖面,进行上述的规范化处理,得到长剖面反演模型电阻率断面图().其中剖面1、2、3为相邻的三个子剖面,探测采用温纳装置,电极间距为5 m,每个子剖面120个电极,长600 m.上个子剖面和下个子剖面重叠30个电极,重叠区长150 m.

工作区位于灰岩岩溶发育较强地区,表层粘土含水较多,导电性良好,第四系地层电阻率值一般为几十欧姆米;灰岩岩体的导电性较差,电阻率值较大,一般达到上千至几千欧姆米,因此第四系覆盖层与灰岩的电阻率存在较为明显的差异.

观察,横坐标是测线相对位置,纵坐标是深度,T1~T5是电阻率异常位置编号,红线和红圈是电阻率异常解释示意图,黑色折线表示基岩界面.在整条剖面上,电阻率横向上变化平缓,但在215~235 m、450~500 m、470~520 m、650~720 m、 m处存在低阻异常,电阻率只有几十至上百欧姆米,明显低于两边基岩电阻率,并且在450~500 m处低阻异常贯穿整个基岩.纵向上,电阻率逐渐增大,表面第四系电阻率为50 Ω·m左右;随深度增加电阻率也逐渐增大,在基岩面处电阻率变化异常明显,由几十欧姆米上升到数百欧姆米,颜色由蓝色变化到绿色;随深度增加,电阻率也逐渐达到最大,为基岩电性特征的数千欧姆米.

推测在整条剖面上,地层分布均匀,基岩起伏平缓;在215~235 m、470~520 m、650~720 m、 m处可能存在溶洞构造;在450~500 m处可能存在断层构造;基岩介面深度为5~15 m左右;推测结果如下().结合工区相关地质及钻探资料,验证了基岩界面深度及溶洞构造.

通过长剖面()和子剖面(~)进行联合解释,长剖面相比于子剖面其异常色调、测线位置、反演精度、图形显示等都达到了统一,同时,能更直观和方便地对整条测线上的异常进行对比和圈定,能更全面、更准确地把握勘探区的电性分布趋势.



最后,通过长剖面与子剖面异常位置和异常解释相对误差结果(),可以看出连接前后异常解释的位置及深度相对误差小于5%,证明该方法在实际应用中具有很好的效果.

本文通过分析高密度电法长测线多剖面数据连接处理,结合实例应用,可以得到以下认识及结论:

(1) 总结了目前提出过的三种方法并对各种方法的可行性及应用效果做了分析,认为子剖面连接法(对重叠区的数据进行处理,包括取重叠区两个子剖面其中一个的数据、取重叠区数据均值、取重叠区数据均值之后进行平滑)具有可行性及高效性.

(2) 通过对不同数据质量的测量电阻率的反演RMS值进行研究,得出连接后反演RMS值不会因连接前子剖面RMS值偏大而出现发散或不收敛,也就是说数据质量较差时对长测线多剖面连接处理仍然能得到与子剖面质量差不多的反演结果.

(3) 探索性的对高密度电法长测线多剖面数据连接的具体流程进行规范化,对实际工作具有重要的指引及规范作用.

(4) 利用子剖面连接法可以把数据连接成长剖面,长剖面相比于子剖面其异常色调、测线位置、反演精度、图形显示等都达到了统一.

(5) 通过研究长剖面与子剖面异常位置及深度的相对误差,可以看出连接前后异常解释的相对误差均小于5%,证明该方法在实际应用中具有很好的效果.

(6) 通过具体实例应用,根据规范化流程,利用长剖面与子剖面进行联合解释,可以更加直观、方便地对整条测线上的异常进行对比和圈定,同时能更全面、更准确地把握勘探区域的电性分布趋势.

致谢 感谢审稿专家提出的修改意见和编辑部的大力支持!

蔡斌. 2011. 高密度电法模型研究与工程应用[硕士论文]. 长春: 吉林大学.
陈敏知, 唐仲华, 罗其海. 2015. 高密度电阻率法在三维含水层建模中的应用——以仙桃彭场镇幅为例[J]. 工程地球物理学报, 12(5): 644–649.
戴田宇, 谢尚平. 2015. 高密度电阻率法在葬墓考古的应用[J].
刘晓东, 张虎生, 黄笑春, 等. 2002. 高密度电法在宜春市岩溶地质调查中的应用[J]. 中国地质灾害与防治学报, 13(1): 72–75.
吕惠进, 刘少华, 刘伯根. 2005. 高密度电阻率法在地面塌陷调查中的应用[J].
秦福刚, 戴隆沛, 李磊, 等. 2007. 高密度电阻率法的装置特点及其在水源勘察中的应用[J]. 工程地球物理学报, 4(4): 323–326.
沈鸿雁, 李庆春. 2008. 高密度电阻率法勘探长测线多排列数据连接处理[J].
施龙青, 牛超, 翟培合, 等. 2013. 三维高密度电法在顶板水探测中应用[J].
孙忠辉. 2014. 高密度电法在复杂岩溶区公路勘察中的应用效果研究[硕士论文]. 成都: 西南交通大学.
王卓, 王玉宽, 张清利. 2011. 高密度电法多排列连接方法在工程勘察中的应用[J]. 岩土工程技术, 25(3): 138–141.
姚健, 曾昭发, 黄玲, 等. 2007. 基于统计学特性的高密度电阻率法多排列数据拼接及分组误差校正[J]. 地质与勘探, 43(3): 78–82.
祝杰, 杜毅, 亢会明, 等. 2011. 高密度电法在水域工程勘察中的应用[J].

我要回帖

更多关于 线性插值法计算举例 的文章

 

随机推荐