摘要
熊耳山矿集区是中国重要的金成矿带,但成矿地质条件复杂,传统地球化学异常提取方法难以有效捕捉潜在的复杂地质信息,且缺乏对数据全局特征的充分利用。本文引入具有多头注意力机制的 Transformer 模型,以捕捉地球化学数据中的长程关联,提升异常提取的精度和稳定性。基于1∶50000水系沉积物地球化学数据,利用 Transformer模型重构地球化学背景,并通过计算原始与重构元素浓度的欧氏距离实现金矿相关的异常信息提取。模型评价结果AUC值达0.876,提取的异常与已知金矿点分布、控矿构造展布一致,表明识别的异常可靠性高。基于识别的化探异常,本文圈定了熊耳山地区金成矿潜力区6处,可供后续金矿勘查部署参考。
Abstract
The Xiong'ershan ore concentration area represents a significant gold metallogenic belt within China. However, the metallogenic geological conditions are complex. Traditional geochemical anomaly extraction methodologies struggle to effectively capture the underlying complex geological information and lack the comprehensive utilization of the global characteristics inherent in the data. In this study, the transformer model, equipped with a multi-head attention mechanism, is introduced. This mechanism enables the capture of long-range correlations within the geochemical data, thereby enhancing the precision and stability of anomaly extraction. Leveraging the 1∶50000 stream sediment geochemical data, the transformer model is employed to reconstruct the geochemical background. Subsequently, the geochemical anomaly information related to gold deposits is extracted by computing the Euclidean distance between the original and reconstructed element concentrations. The AUC value of the model reaches 0.876, and the extracted geochemical anomalies are consistent with the distribution of known gold deposits and the distribution of ore-controlling structures, indicating that the identified anomalies have high reliability. According to the results of geochemical anomaly identification, this paper delineates six gold metallogenic potential areas in the Xiong'ershan area, which can serve as a valuable reference for the subsequent deployment of gold exploration efforts.
0 引言
熊耳山矿集区是国内重要的金矿产地,已发现金矿床/点超过 100 处。熊耳山地区金矿床的形成涉及拆离断层活动、核杂岩隆升以及热液流体渗流-交代作用的复杂耦合过程(王志光和张录星, 1999)。上述复杂的地质过程相互交织、协同作用,致使金及其他元素在空间分布上呈现出高度的复杂性与非线性特征,因此熊耳山地区的找矿勘查存在诸多挑战。
地球化学勘查是热液金矿勘查的重要手段,化探异常提取对于确定金找矿靶区尤为关键。传统地球化学异常提取方法主要依赖简单的统计分析,如计算元素的平均值、标准差等统计指标,设定阈值来区分异常与背景值(Hawkes and Webb,1962)。这类单元素分析方式在早期金矿勘查时起到一定的指示作用,但由于金矿成矿过程的复杂性,涉及多种元素间的协同作用,无法充分考量多元素间的相互作用,难以洞察全局,易简化问题(Zuo and Xiong,2018)。为克服这一局限,学者开始关注多元地球化学异常的识别,这不仅能提供更全面的地球化学背景理解,还能揭示在单元素分析中不明显的、与成矿过程相关的缓、弱异常(Cheng et al., 2007;Zuo and Xiong,2018)。随着研究的深入,基于地质统计学、分型模型的方法相继提出,试图通过探索地球化学数据中蕴含的空间分布规律来识别异常(Cheng et al.,1994; Zuo et al.,2012;Wang and Zuo,2015;毛先成等,2022;李斌等,2024)。但由于地球化学数据空间模式的非线性以及复杂的长短程关联,这类方法难以深入挖掘潜藏的复杂地质信息(Zuo and Xiong,2018;Zuo et al.,2019)。近年来,机器学习技术的兴起为地球化学异常识别带来了新的发展契机,如支持向量机、随机森林、高斯混合模型等模型被应用于地球化学异常识别(李苍柏等,2020;刘旭洋和赵玉岩,2024)。其中,深度学习方法已成为当前研究的热点(Zuo et al.,2019)。例如,卷积神经网络(CNN)通过卷积层自动提取数据中的局部空间特征,已被应用于地球化学异常提取任务(刘艳鹏等,2020)。图网络侧重于对数据的拓扑结构进行建模,对于具有明确空间关系的数据有一定优势,也能较好地识别矿致异常信息(Guan et al.,2022)。Transformer模型最初在自然语言处理领域取得了突破性进展,其关键在于模型的核心模块——多头注意力机制能够有效捕捉数据中的长程关联(Vaswani et al.,2017)。由于熊耳山地区的金矿化受到复杂耦合过程的影响,涉及较大的空间范围,元素的分布在区域尺度上存在复杂的相互关系,现有方法难以有效建模这种长程依赖关系。而Transformer 模型的多头注意力机制可以高效提取距离远的数据之间的关系,整合全局空间特征,为准确识别地球化学异常提供了新的可能。
本文基于 1∶50000 次生晕数据,采用 Trans‐ former模型对熊耳山地区金矿地球化学异常提取研究,并通过统计学方法和成矿规律认识评价异常提取结果的可靠性与准确性。本文有望为基于全局空间特征实现地球化学异常识别提供了新的思路,推动熊耳山矿集区的找矿勘查工作。
1 地质概况
熊耳山地区位于河南省洛宁、嵩县和栾川县境内,是国内仅次于胶东金矿集区的第二大黄金成矿带之一(毛景文等,2005)。该区大地构造位置处华北板块南缘,南端以马超营断裂为界,北端以洛宁断裂为界,是华北、华南 2 大古板块拼接的部位(范宏瑞等,1994)。区域主要出露新太古界太华群变质岩(斜长角闪片麻岩以及少量混合岩、斜长角闪岩和变粒岩)、中元古界熊耳群火山岩(安山岩、玄武安山岩、英安岩和粗安岩)、中元古界官道口群 (碎屑岩、碳酸盐)和第四系沉积物(图1)。其中太古宙太华群地层构成了熊耳山地区的结晶基底,上覆地层为中元古界熊耳群火山岩,二者为不整合接触关系。
图1研究区大地构造位置图(a)与地质简图(b)
区域构造主要有近东西向(马超营断裂等)、北东向(康山—七里坪断裂、焦园断裂等)、东西向断裂3条主要构造带伴随各次级构造。马超营断裂带长约 200 km,深度达 30 km 以上(王路,2012),是熊耳山地区最为深大的区域性断裂。该断裂切割了太华群和熊耳群的所有地层,控制了花岗岩体在该地区的产出形态(陈德海,2011)。马超营断裂与多期次的区域热液活动,显示出与金、银、钼等成矿作用的紧密联系(李永峰等,2005)。康山—七里坪断裂带也是区内重要的控矿断裂,延伸长约35 km,控制了上宫、康山等金矿床的产出(刘海翔,2018)。焦园断裂与马超营断裂交汇,控制产出有红庄、元岭、石窑沟等金矿。区内构造除断裂外,还发育少数褶皱构造,如黄庄向斜、拔菜坪背斜等。
熊耳山地区岩浆活动极为频繁,区内的岩体主要有五丈山、花山、金山庙和合峪。五丈山岩体主要岩性为角闪花岗岩和正长花岗岩,北端侵位在太古宇太华群地层中,南端侵位于中元古界熊耳群地层中;花山岩体岩性主要为黑云母花岗岩,侵位于太古宇太华群中;金山庙岩体同样侵位于太华群,岩性为中—细角闪黑云二长花岗岩;合峪岩体岩性为黑云母二长花岗岩,侵位在熊耳群火山岩中。熊耳山地区的岩浆事件可大致分为3个阶段:(1)太古宙岩浆活动形成了中基性—酸性火山岩、奥长花岗岩、云英闪长岩、TTG 岩系等太华群结晶基底,并经历了多期次变质和混合岩化作用;(2)元古宇熊耳期经历了中基性—酸性岩浆喷发形成了大量安山岩和中基性岩脉;(3)中生代岩浆事件分为早中生代和晚中生代 2 期,其中早中生代印支期岩浆活动形成了一系列碱性岩体和岩脉(槐树坪、磨沟岩体等),晚中生代燕山期岩浆活动规模巨大,侵位于太华群变质岩和熊耳山喷出岩中,形成了五丈山、合峪、花山、金山庙等花岗岩基和一系列小型岩脉,与金、钼等成矿活动密切相关(陈德海,2011;唐克非, 2014;胡昕凯,2021)。
熊耳山地区发育金、银、钼等矿床,其中以金矿为主。前人将该地区矿床类型划分为构造蚀变岩型、石英脉型、隐爆角砾岩型等。构造蚀变岩型金矿多受断裂构造蚀变带控制,并围绕断裂带展布,以康山、庙岭、上宫等金矿床为代表,围岩蚀变主要为钾化、硅化、黄铁矿化、绿帘石化、绢英岩化等。石英脉型金矿以公峪金矿床为代表,一般具有走向延伸长、连续性较差的特点,围岩蚀变主要有钾化、硅化和碳酸盐化等。隐爆角砾岩型金矿以祁雨沟和店房金矿为代表,金矿形成主要与岩浆隐爆和坍塌有关,金矿体多产出于角砾岩体中下部,与围岩接触界线较为明显(赵玉,2020;董文超,2023;刘清泉等,2024)。
2 地球化学数据及处理
2.1 水系沉积物地球化学特征
本文采用熊耳山地区1∶50000的次生晕地球化学数据(图2),其采样密度为每 1 km2 采集 4~8 个样品,微量元素通过等离子体质谱(ICP-MS)分析,对重复样品的数据分析显示误差在5%以内。所有地球化学元素特征统计情况如表1所示。
表1熊耳山地区地球化学元素数据特征统计
注:Au、Ag、Hg的单位为10-9 ,其他元素单位为10-6。
2.2 数据预处理
(1)成分数据处理
地球化学数据是典型的成分数据,其变量总和为定值。成分数据的“闭合效应”会使地球化学数据不服从正态分布,给本文分析结果带来偏差。为了消除成分数据的“闭合效应”,使用中心对数比变换 (centered-logratio transformation)打开地球化学数据,去除元素间的伪相关关系(Aitchison,1982;Filzmoser and Hron,2009)。中心对数比变换的优点在于,其从具有Aitchison度量的单纯形到具有普通欧氏度量的空间子空间的等距变换,这种特性有助于在地球化学数据处理中保留数据的几何结构和关系。
图2熊耳山地区代表性元素浓度等值线图(a~f:Au、Ag、As、Bi、Cu、Hg)
首先,定义数据集 XD = { x1,x2,···,xD },其中 xi > 0,i=1,2,···,D。成分数据的各变量之和为定值,即 ,k为任意正常数。D个行向量组成了XD的数据空间。对数比变换表达为:
(1)
式(1)中,表示几何平均值。
(2)归一化处理
打开了成分数据之后,为消除不同元素量纲所带来的影响,采用了 Min-Max归一化处理方式。该方法能够将地球化学样本数据有效归一化至[0,1]的范围,使不同元素的数据处于同一量纲水平,从而确保在数据处理和分析过程中,各元素数据的特征能够得到合理且有效的体现。其计算公式如下:设某一地球化学元素的原始数据值为 xi,该元素在所有样本中的最小值为 xmin,最大值为 xmax,则经过 Min-Max归一化处理后的数据值为:
(2)
3 方法介绍
3.1 Transformer模型架构
Transformer 模型是一种基于自注意力机制 (self-attention)的神经网络架构(Vaswani et al., 2017),广泛应用于自然语言处理任务。与依赖卷积或循环层的传统架构不同,Transformer 模型通过自注意力机制高效捕捉输入序列中远程依赖关系,实现了全局特征的灵活建模。其编码器-解码器结构由堆叠的自注意力模块和全连接层组成:编码器通过位置编码提取输入序列的深层特征并建立全局依赖关系,解码器则利用这些特征生成目标序列的输出。
在此基础上,本文提出了一种基于 Transformer 架构的地球化学异常识别模型,以无监督方式学习目标样本的异常特征(图3)。该模型将地球化学样本表示为输入序列,其中目标样本为检测对象,剩余样本为上下文信息来源。为表征样本间的空间关系,所有样本通过多层感知器(MLP)生成可学习的位置编码。为了增强模型的泛化能力和数据多样性,模型对剩余样本进行了随机屏蔽处理。随后,这些样本被输入编码器,通过多层自注意力模块提取样本间的上下文特征,捕捉地球化学样本的空间分布和元素信息。解码器模块进一步接收编码特征与目标样本的位置编码,模拟目标样本与其他样本的交互过程,并最终生成目标样本的重构地球化学信号。依据自编码器原理(Xiong and Zuo, 2016),通过计算重构误差评估目标样本的异常分数,无需借助任何与矿化相关的标签数据。
图3面向地球化学异常识别的Transformer框架
自注意力机制在该模型中发挥了核心作用,通过捕捉样本间的全局依赖关系,显著提升了对地球化学数据复杂空间分布和高维特征的建模能力。其中,多头自注意力机制(multi-head self-attention) 尤为关键:输入样本通过查询(query)、键(key)和值 (value)的转换分别表示需要检索的信息、相关特征和具体内容。模型通过计算查询与键的相似度,生成注意力分数以衡量各样本的相对重要性,并结合这些分数对值进行加权求和,从而生成特征表示。多头机制通过并行计算注意力分数,从不同特征子空间捕捉全局与局部依赖,精细表达局部特征的同时增强长距离依赖建模能力,显著提升地球化学异常识别的准确性和稳健性。
3.2 损失函数
为了有效地训练 Transformer 模型以实现地球化学异常提取任务,本文构建重建损失作为目标函数。通过最小化重建损失函数,以无监督的方式利用地球化学数据对 Transformer 模型进行训练。在这个过程中,通过不断优化模型对原始地球化学数据的重构能力,引导模型学习数据中的内在模式与特征。重建损失L(θ)计算如下:
(3)
式(3)中,N 代表样本的总数,n 表示元素的数量,xi,k为第 i个样本中第 k个元素的原始浓度值,则是模型重构后相应元素的浓度值。
通过计算原始值与重构值之间的差异平方和,并对所有样本和元素进行平均,该损失函数能够直观地反映模型对原始数据的逼近程度。模型训练的目标就是通过调整参数θ,使得重建损失最小化,从而实现对地球化学数据的准确重构。在训练过程中,选择 Adam 优化算法来优化上述重建损失函数,逐步优化模型参数θ。
3.3 异常提取与分析
利用训练完成的 Transformer 模型对地球化学数据进行重构操作。对于每一个目标样本,异常分数被定义为原始元素浓度值与重构后的元素浓度值之间的欧氏距离。设目标样本中第k个元素的原始浓度值为 xi,k,重构后的第 k 个元素浓度值为,则异常分数Si的计算公式为:
(4)
式(4)中,n为元素的总数。通过计算每个样本的异常分数,能够量化其偏离正常地球化学模式的程度,从而确定可能存在的地球化学异常区域。
为了全面评估识别出的异常有效性,本文采用了受试者曲线(ROC)(Fawcett,2006)对异常评分进行评估。在ROC曲线分析中,其曲线下面积(AUC) 被用作衡量模型整体性能的关键指标。在地球化学异常识别的情境下,AUC 值越高,表明所识别出的异常与已知矿化分布之间的空间相关性越强。通过绘制ROC曲线并计算AUC值,可以直观地了解模型在区分异常与背景区域方面的能力,为后续的成矿预测和矿产勘查提供重要的决策依据。
4 地球化学异常提取
4.1 模型训练
本文基于 Transformer 架构构建化探异常识别的深度学习模型,并在 PyTorch 框架中实现。该模型由 2 个编码器层和 2 个解码器层组成,且每层包含2个注意力头。在注意力子层中,查询、键和值的维度设置为 14,与通过 clr 变换得到的数据维度一致;前馈子层的隐藏层维度设置为 2048,以增强模型的表达能力。
实验数据集共包括 2280 个已预处理的地球化学样本,并按照8∶2的比例划分为训练集和验证集。为增强模型的泛化能力,采用了数据屏蔽技术对输入样本进行掩蔽,掩蔽比率随机设置在 0~50%。对于每个目标样本,根据剩余的可见数据生成 3 个增强数据集:其中一个用于计算重建损失,另外两个则用于计算对比损失。此掩蔽策略有助于模型学习更佳的特征表示,进而提高其在矿化异常检测任务中的性能。
训练过程中,通过设置最小化损失函数来优化模型性能。批量大小设置为 8,学习率采用 6000 步的预热机制,初始学习率为1,以确保模型的稳定收敛。该模型共训练了 12 个 epoch,并采用早期停止策略避免过拟合。最终,模型在训练过程中成功收敛,损失值达到0.0211(图4),并获得最佳性能。
图4Transformer模型训练过程中的损失变化图
4.2 地球化学背景重建
本文利用已训练好的最佳模型对地球化学元素进行了重建。图5展示了金元素浓度的原始分布、重建结果及其差异,直观地反映了地球化学背景的空间特征与模型重建的效果。原始数据(图5a)分布情况表明,金元素浓度呈现明显的空间分带性,高浓度区域主要集中在构造单元附近。而模型重建结果有效保留了原始数据中的低频特征,并在整体趋势上高度还原了原始浓度分布(图5b)。特别是在高低浓度过渡区域,模型能够精确捕捉到金元素浓度的空间变化,表现出较强的空间特征提取能力。总体而言,重建结果与原始数据的较高匹配度证明了模型在地球化学异常识别和矿产资源评估中的应用潜力(图5c)。
图5clr(金)的原始值(a)与重构值(b)以及原始值和重建值的差异(c)
4.3 地球化学异常提取及评价
根据所有地球化学元素的原始值和Transformer 模型训练得到的重建值,本文使用原始值和重建值之间的欧氏距离作为异常值,有效分离了化探异常并去除了背景差异的干扰。为评估 Transformer 模型在化探异常识别中的表现,本文通过ROC曲线进行性能验证。同时,为验证该方法异常提取结果的有效性,我们选取了两种典型的方法:随机森林 (Random Forest)和自编码器(AutoEncoder)。结果显示Transformer模型的AUC值达到0.876(图6),高于随机森林和自编码器的 AUC 值(0.820 和 0.752),说明 Transformer 模型所识别的异常与金矿点的空间分布展现出强相关性,具有更高的可靠性和准确性。
图6基于随机森林、自编码器和Transformer模型的ROC曲线
前人研究认为,熊耳山地区内的断裂构造对金矿成矿流体的迁移、汇聚具有显著影响,因此断裂控矿、沿断裂找矿已成为熊耳山矿集区的主流认识 (王军升和王玉往,2014;张苏坤等,2016)。本文通过叠加区内的断裂构造,对基于随机森林、自编码器和 Transformer 模型识别的多元地球化学异常进行对比分析。在这 3 个模型中,Transformer 模型展现出了显著的优势。从结果来看(图7),随机森林模型(图7a)和自编码器模型(图7b)所识别出的地球化学异常高值区与断裂构造的相关性较弱。而Transformer 模型(图7c)所识别出的地球化学异常高值区主要分布在主断裂及次级断裂周围,且与断裂的走向及延展趋势高度一致。例如,区内西北部以康山—七里坪断裂为例,沿 NE-SW 方向展布,在 Transformer 模型结果中,其两侧分布着明显的地球化学异常高值带,部分高值区与断裂线基本平行,呈带状延伸;而南部以马营超断裂为例,附近的异常高值区呈近东西向断续分布,强度较高且局部可连片。这些异常区与矿点的空间分布高度重合,大多数金矿点集中在这些异常高值区及其边缘,进一步证明了 Transformer 模型提取的异常对金矿化响应的准确性优于随机森林和自编码器模型。
图7基于随机森林(a)、自编码器(b)和Transformer模型 (c)识别的多元地球化学异常
上述对比结果进一步表明,Transformer 模型在处理该区域地球化学数据时具有独特优势。Trans‐ former 模型因其独特的自注意力机制,能够更好地捕捉数据中的长距离依赖关系。相比之下,随机森林模型在处理复杂地质结构和多元地球化学数据时,容易出现过拟合现象,导致所识别出的异常区域与实际断裂构造和矿点分布的关联性不强。自编码器模型虽然能够对数据进行有效的特征提取,但在反映地球化学异常与断裂构造之间的空间关系方面不够精确。在熊耳山地区的数据处理中,自编码器模型难以准确地将地球化学异常与具体的断裂构造相关联,而 Transformer 模型能够精准地呈现出这种空间对应关系,能够为该地区的金矿勘探提供更具价值的参考。
4.4 成矿潜力区的圈定
基于识别的地球化学异常,对比异常分布特点和已知金矿成矿规律,本文圈定了熊耳山金矿集中区内的成矿潜力区(图8)。熊耳山西段成矿潜力区位于的庄根金矿 NE 方向、蒿坪沟金矿的 SW 方向,这些区域具有较高的异常值,控矿断裂附近或交汇处。熊耳山中段的成矿潜力区位于康山金矿东部,马超营断裂北部,位于断裂交汇处,具有明显高的异常值,反映出了较好的成矿潜力。熊耳山东段的成矿潜力区有 3处,其中 2处位于东坪、青岗坪金矿附近,1处位于南坪金矿东部,这些地段具有较好的异常连续性和较高的异常值,整体呈现出沿断裂带或已知金矿带分布的趋势,需要进一步勘查验证。
图8熊耳山地区找矿远景区分布图
5 结论
(1)本文提出了一种基于 Transformer 模型进行地球化学异常提取的方法,并以熊耳山矿集区作为研究对象,识别并分析了区域内多元地球化学异常特征,圈定了成矿预测区。研究显示,Transformer模型利用多头注意力机制,捕捉地球化学数据中的长程和短程依赖关系,在熊耳山地区地球化学背景空间变异性较低的条件下,能够有效且准确地识别金矿相关的化探异常,其AUC值达0.876。
(2)识别的熊耳山金矿集区的地球化学异常分布与矿床及其控矿构造关系明显,在空间上表现为带状和斑块状分布。依据异常的分布和成矿规律认识,在熊耳山矿集区西段、中段、东段分别识别出 2处、1处、3处成矿潜力区,可供后续的金矿勘查参考。
致谢 两位审稿人提出了诸多宝贵建议,论文的撰写和修改得到了中南大学邓浩、陈进、刘占坤的悉心指导,在此深表感谢。