GNN 算法如何用于量化选股：从量化因子到图神经网络理论、应用、原理与文献综述

图神经网络（Graph Neural Network, GNN）在量化投资中的吸引力，来自一个朴素但重要的判断：股票不是彼此独立的样本点，而是处在供应链、产业链、股权、资金、分析师覆盖、新闻传播和交易行为共同构成的关系网络中。传统多因子模型通常把每只股票压成一行特征，重点看估值、动量、质量、成长、波动、换手等单体变量；GNN 则试图把“关系”也变成可学习的输入，让模型在图上做信息传播，从而捕捉 lead-lag、产业传导、风险外溢和群体行为。微信文章《降维打击！量化圈的新晋“印钞机”：图神经网络(GNN) 产业链因子全解析与深度进阶》把这个方向讲成一个量化实战故事：构建股票关系图，把供应链、大股东重叠、共同分析师覆盖等关系作为边，再用 GCN/GAT 生成产业链联动因子，和传统动量因子对比回测$^{[1]}$。这类文章的优点是把 GNN 的应用场景讲得直观，缺点是容易把研究原型讲成稳定 alpha。真正理解 GNN 量化因子，需要同时回答两个问题：金融问题到底被怎样图建模？GNN 的理论能力和边界到底在哪里？本文从这篇 GNN + 量化应用切入，逐层深入到图神经网络的理论原理、主流模型谱系、表达能力、常见失效模式、金融落地风险和核心参考文献。

从量化应用看 GNN 的问题意识

传统多因子模型的隐含假设

经典横截面多因子模型通常写成：

\[r_{i,t+1} = f(x_{i,t}) + \epsilon_{i,t}\]

其中 $x_{i,t}$ 是股票 $i$ 在时点 $t$ 的特征，例如估值、动量、盈利、波动率、分析师预期、资金流等。即使模型使用 XGBoost、LightGBM、MLP 或 Transformer，只要输入结构仍然是一只股票一行，它就很容易落入一个默认假设：股票之间的关系只通过特征间接表达，而不是模型结构的一部分。

这个假设在金融市场里明显不完整。比如：

上游原材料涨价会影响中游制造企业利润。
核心客户订单变化会传导到供应商收入预期。
龙头股的价格变化会带动同行业或上下游资产重估。
同一批机构持仓的股票会出现共同交易冲击。
同一分析师覆盖、同一新闻主题、同一产业政策会造成信息同步。

传统模型可以把行业哑变量、上下游价格指数、共同持仓指标手工做成特征，但这些关系一旦变多，手工特征会迅速膨胀，而且难以表达多跳传导和动态权重。GNN 的切入点就是把这些实体和关系显式建成图。

股票市场可以被看成一张图

把股票市场建成图，最小形式是：

\[G_t = (V_t, E_t, X_t, R_t)\]

其中：

$V_t$ 是时点 $t$ 可交易股票集合。
$E_t$ 是股票之间的边，可以来自产业链、供应链、股权、共同基金持仓、新闻共现、收益相关性等。
$X_t$ 是节点特征，即每只股票自己的因子。
$R_t$ 是边特征或关系类型，例如上游、下游、竞争对手、同一控股股东、共同分析师覆盖、收益相关边等。

最终任务可以是：

节点回归：预测每只股票未来收益、波动、风险暴露。
节点排序：预测横截面排名，用于 long-short 或 top-k 组合。
边预测：预测某种关系是否形成或增强。
图级预测：预测行业、主题、市场状态。

量化选股最常见的是节点排序。一个简化目标可以写成：

\[s_{i,t} = \mathrm{GNN}(G_t, X_t)_i\]

其中 $s_{i,t}$ 是股票 $i$ 的 GNN 因子分数。策略层再根据分数做排序、行业中性、风险约束和组合优化。

产业链因子的本质

微信文章强调的“产业链 GNN 因子”可以理解为一种关系增强因子。它不只看股票自己过去涨跌，而是看与它有经济关系的其他股票发生了什么。

例如上游煤炭价格上涨：

对煤炭企业可能是收入和利润改善。
对火电企业可能是成本压力。
对高耗能制造企业可能是利润压缩。
对新能源替代链条可能是需求预期改善。

如果只看单股动量，模型可能只能看到煤炭股上涨；如果有产业链图，模型有机会把上游变化传到下游节点，并学习不同关系方向上的正负影响。这正是 GNN 对量化投资的核心价值：把经济传导机制变成模型的结构归纳偏置。

GNN 的核心抽象：消息传递

从图上状态传播开始

现代 GNN 的大部分模型都可以归入消息传递神经网络（Message Passing Neural Network, MPNN）框架。Gilmer 等人在量子化学任务中系统化了这个表述$^{[8]}$。一般形式是：

\[m_v^{(k)} = \mathrm{AGG}^{(k)}\left(\left\{M^{(k)}(h_v^{(k)}, h_u^{(k)}, e_{uv}) : u \in \mathcal{N}(v)\right\}\right)\] \[h_v^{(k+1)} = U^{(k)}(h_v^{(k)}, m_v^{(k)})\]

这里：

$h_v^{(k)}$ 是节点 $v$ 在第 $k$ 层的表示。
$u \in \mathcal{N}(v)$ 表示 $v$ 的邻居。
$e_{uv}$ 是边特征。
$M$ 是消息函数。
$\mathrm{AGG}$ 是聚合函数，必须对邻居顺序不敏感。
$U$ 是节点更新函数。

对股票图来说，消息传递的含义很直观：某只股票的新表示，来自它自己的特征，以及产业链邻居、同行、共同资金持仓股票等邻居节点的信息。

为什么聚合函数必须置换不变

图和序列不同。序列中第一个 token、第二个 token 的顺序有含义；但一个节点的邻居集合没有天然顺序。供应商 A 和供应商 B 在邻居列表里谁排第一，不应该影响模型输出。因此 GNN 的邻居聚合通常要求置换不变：

\[\mathrm{AGG}(\{h_1, h_2, h_3\}) = \mathrm{AGG}(\{h_3, h_1, h_2\})\]

常见聚合函数包括 mean、sum、max、attention-weighted sum。GIN 论文特别指出，sum 聚合在表达多重集合时比 mean/max 更强，这和 GNN 的 Weisfeiler-Lehman 表达能力分析直接相关$^{[10]}$。

图卷积不是普通二维卷积

CNN 在图像上做卷积，是因为像素处在规则网格上，每个位置都有固定邻域结构。图没有固定网格，每个节点度数不同，邻居无序，图大小也可变。图卷积的核心不是“滑动窗口”，而是“邻域聚合”。

GCN 的经典形式来自 Kipf 和 Welling$^{[6]}$：

\[H^{(l+1)} = \sigma\left(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}\right)\]

其中：

$\tilde{A} = A + I$，给图加自环。
$\tilde{D}$ 是 $\tilde{A}$ 的度矩阵。
$H^{(l)}$ 是第 $l$ 层节点表示。
$W^{(l)}$ 是可学习参数。

这可以理解为：每一层都把一个节点和邻居节点的表示做归一化平均，再做线性变换和非线性激活。放到股票图里，它就是“自己因子 + 邻居因子”的加权融合。

从 GCN 到 GAT：边权如何被学习

固定边权的问题

如果产业链数据告诉我们 A 公司向 B 公司供货，占 B 成本的 20%，那么可以把这条边的权重设为 0.2。但固定边权在金融里经常不够：

宏观环境变化时，同一条边的重要性会变化。
成本传导和需求传导方向不同。
一条边对收益、波动、风险的作用可能不同。
数据供应商给出的关系强度可能过时或粗糙。

因此，量化场景里常需要让模型动态学习边权。

GAT 的注意力机制

Graph Attention Networks (GAT) 用注意力机制学习邻居权重$^{[9]}$。简化写法是：

\[e_{ij} = a(Wh_i, Wh_j)\] \[\alpha_{ij} = \frac{\exp(\mathrm{LeakyReLU}(e_{ij}))}{\sum_{k \in \mathcal{N}(i)} \exp(\mathrm{LeakyReLU}(e_{ik}))}\] \[h_i' = \sigma\left(\sum_{j \in \mathcal{N}(i)} \alpha_{ij}Wh_j\right)\]

在金融图里，$\alpha_{ij}$ 可以理解为模型认为“邻居 $j$ 对股票 $i$ 当前预测有多重要”。在牛市、通胀、政策冲击、流动性收缩等不同环境下，注意力权重可能发生变化。微信文章提到的“牛市关注下游扩产、滞胀关注上游资源约束”，本质就是动态边权的直观解释$^{[1]}$。

GAT 不是万能解释器

需要谨慎的是，GAT 的 attention weight 不等于严格因果解释。它只是模型内部的加权机制，可能受到特征尺度、图结构、训练目标、正则化和数据噪声影响。GATv2 指出原始 GAT 的注意力形式存在静态注意力问题，并给出了更灵活的动态注意力设计$^{[18]}$。在金融场景中，如果要把 attention 当解释使用，至少应配合稳定性检验、扰动实验和时间外验证。

GNN 模型谱系

早期图神经网络

GNN 并不是近几年才出现。Gori 等人在 2005 年提出图域学习模型$^{[2]}$，Scarselli 等人在 2009 年给出了更系统的 Graph Neural Network Model$^{[3]}$。早期模型通常把节点状态定义为递归方程，通过迭代传播直到收敛。

这类模型强调的是图上依赖关系的固定点表达，但训练复杂、效率较低，也没有今天深度学习框架下的标准消息传递接口。

谱方法

图谱方法从图 Laplacian 的特征分解出发，试图在图频域定义卷积。Bruna 等人的 Spectral Networks 是代表性早期工作$^{[4]}$。Defferrard 等人的 ChebNet 使用 Chebyshev 多项式近似谱滤波，使图卷积局部化并降低计算成本$^{[5]}$。

谱方法的理论很优雅，但对图结构变化不够友好。量化投资中的股票池会变化，关系图也随时间变化，因此完全依赖固定图谱分解的模型不太方便。

GCN

GCN 可以看成谱方法的一阶近似，也可以看成一种简单的空间邻域聚合。它结构简洁、计算高效、易于实现，是 GNN 入门和许多应用原型的起点$^{[6]}$。

但 GCN 的限制也明显：

默认邻居越相似越好，适合同配图。
边类型和边方向表达能力有限。
多层堆叠容易过平滑。
对动态图和异构图支持不自然。

GraphSAGE

GraphSAGE 解决的核心问题是归纳学习和大图采样$^{[7]}$。它不需要对整张图做完整传播，而是采样邻居并学习聚合函数。因此它适合大规模图和新节点泛化。

在金融里，新上市股票、新增关系、动态股票池都要求模型具备归纳能力。GraphSAGE 的思想比纯转导式 GCN 更贴近生产环境。

MPNN

MPNN 是一个统一框架，不是单一模型$^{[8]}$。它把 GCN、GAT、边特征模型、分子图模型等都放到“消息函数 + 聚合函数 + 更新函数”的抽象里。理解 MPNN 后，再看各种 GNN 变体会清晰很多：多数创新都发生在消息函数、聚合函数、更新函数、读出函数或图结构重写上。

GIN 与表达能力

GIN 论文提出一个关键观点：标准消息传递 GNN 的表达能力至多与 1-dimensional Weisfeiler-Lehman (1-WL) 图同构测试相当$^{[10]}$。如果 1-WL 分不清两个图，普通 MPNN 通常也分不清。

GIN 的核心更新形式是：

\[h_v^{(k)} = \mathrm{MLP}^{(k)}\left((1+\epsilon^{(k)})h_v^{(k-1)} + \sum_{u \in \mathcal{N}(v)}h_u^{(k-1)}\right)\]

它强调 sum 聚合和 MLP 的组合，以尽量增强多重集合表达能力。对金融应用而言，这个理论提醒我们：GNN 不是自动拥有任意图推理能力。它很擅长局部邻域信息传播，但对某些高阶结构、长距离依赖和复杂子图模式，普通 MPNN 可能不够。

GNN 的三类核心失效模式

Over-smoothing：越深越像

GCN 类模型层数增加后，节点表示会反复与邻居平均，最终不同节点表示趋同，失去区分度。这就是 over-smoothing。微信文章也提到，量化中通常只看一到两阶邻居，过深会让股票因子分数趋同$^{[1]}$。

在选股里，过平滑尤其危险。选股需要的是横截面差异，如果所有股票表示都被行业、产业链或市场共同因子抹平，模型可能变成一个行业 beta 或市场情绪提取器，而不是可用 alpha。

应对方法包括：

残差连接和初始表示保留，例如 GCNII$^{[20]}$。
Jumping Knowledge，把不同层表示组合起来$^{[19]}$。
APPNP/GPR-GNN，用传播和预测解耦$^{[21]}$。
限制传播层数，只做一到两跳经济可解释传播。

Over-squashing：远距离信息被压扁

Over-squashing 指的是远距离大量信息通过有限维向量传到目标节点时，被压缩到难以保留有效信号$^{[23]}$。在图上，如果从远端节点到目标节点的路径很多但瓶颈很窄，信息很容易被挤压。

金融图里也有类似问题。一个宏观冲击可能沿多个行业、多层供应链传播，但如果模型只用固定维度表示聚合多跳信息，远端重要信号可能被淹没。

应对方向包括图重连、位置编码、长程注意力、Graph Transformer 和基于曲率或有效电阻的结构分析$^{[24]}$。

Heterophily：邻居并不相似

很多 GNN 假设相邻节点应该相似，这叫 homophily。但金融图经常是异配的：

上游涨价对上游是利好，对下游可能是利空。
竞争对手之间可能一涨一跌。
债务链和担保链可能传递风险，而不是相似收益。
供应商和客户的收益方向可能不一致。

如果简单做邻居平均，就可能把相反信号混在一起。H2GCN、Geom-GCN、GPR-GNN 等工作都在处理异配图学习问题$^{[21]}$ $^{[22]}$。对量化来说，关系边必须有方向、类型和符号，不能把所有边都当作“越相邻越相似”。

异构图与动态图：金融场景的真实形态

为什么金融图天然异构

股票关系图通常不是单一边类型。至少有：

供应商到客户。
客户到供应商。
同行业竞争。
同集团或股东关系。
共同基金持仓。
分析师共同覆盖。
新闻事件共现。
收益相关性或残差相关性。

这些关系的语义不同，传导方向不同，时间稳定性也不同。如果把所有边合并成一个邻接矩阵，会损失大量信息。异构图神经网络的目标就是在多类型节点、多类型边上学习。

HAN 使用 meta-path 和 attention 处理异构图$^{[25]}$；HGT 使用类型相关的 Transformer 风格注意力处理异构图$^{[26]}$。金融应用中，如果同时建模股票、行业、公司公告、新闻、机构、分析师、基金等节点，HGT 这类模型更自然。

为什么金融图必须带时间

静态图是金融 GNN 研究中最常见的简化，也是最容易出问题的地方。真实关系随时间变化：

供应链合同会变。
持仓披露有滞后。
分析师覆盖会变。
股权关系会变。
相关性边在 regime 切换时会变。
新闻和事件边高度短期。

如果使用未来才知道的边或特征，就会产生严重的 look-ahead bias。因此生产级金融 GNN 应该使用 $G_t$，而不是一个全样本静态图。

Temporal Graph Networks (TGN) 把动态图事件流、节点记忆和时间编码结合起来，是动态图学习的重要代表$^{[27]}$。动态图综述也强调，时间图学习需要区分离散快照图和连续时间事件图$^{[28]}$。

对量化投资来说，动态图建模至少要满足：

每条边有生效时间和失效时间。
特征、标签、边都按 as-of time 对齐。
训练和回测不能使用未来修订后的关系。
对披露滞后和数据供应商更新时间做处理。

Graph Transformer 与图基础模型

为什么要把 Transformer 引入图

普通 MPNN 擅长局部传播，但长程依赖和全局结构较弱。Transformer 的优势是全局 attention，因此自然被引入图学习。

Graphormer 通过中心性编码、空间编码和边编码，把图结构注入 Transformer，并在图表示任务上取得强结果$^{[29]}$。GraphGPS 则提出一种更通用的 recipe，把局部 MPNN 和全局 Transformer 结合起来，试图同时保留局部结构归纳偏置和长程建模能力$^{[30]}$。

在金融图里，Graph Transformer 的潜在价值包括：

捕捉远距离产业链传导。
同时建模局部供应链和全市场共振。
将行业、主题、宏观状态作为全局 token 或结构编码。
缓解普通消息传递的 over-squashing。

图基础模型的趋势

2024-2025 年，图学习开始明显向预训练、跨域迁移和图基础模型演进。Graph Foundation Models 综述系统整理了这个方向，包括图预训练、图提示学习、多任务迁移、图-文本融合等$^{[32]}$。GraphFM 等工作则尝试训练可跨领域迁移的通用图 Transformer$^{[33]}$。

这对量化研究有启发，但也要谨慎。金融图分布高度非平稳，跨市场、跨时期迁移很难。图基础模型可能有助于结构表示和冷启动，但最终仍要接受时间外回测、交易成本和容量约束检验。

自监督学习与图预训练

金融标签噪声很大，未来收益的信噪比低。相比直接监督预测收益，图自监督学习可以先学习结构表示，再用于下游任务。

典型方法包括：

Deep Graph Infomax，通过最大化局部节点表示和全局图表示的互信息学习节点表示$^{[34]}$。
GraphCL，通过图增强和对比学习获得鲁棒表示$^{[35]}$。
BGRL，用 bootstrap 方式做图表示学习，避免显式负样本$^{[36]}$。
GraphMAE，用 masked autoencoder 思路重建节点特征$^{[37]}$。

在金融中，自监督任务可以设计为：

mask 一部分节点因子，预测缺失特征。
mask 一部分产业链边，预测关系存在。
用不同时间窗口或不同数据源构造图增强。
对同一公司的公告、新闻、财务、价格节点做跨模态对齐。

但要注意，自监督预训练同样可能发生时间泄漏。如果预训练用到了未来关系或未来全样本统计，再用于历史回测，结果会虚高。

GNN 量化因子的落地框架

数据层

一个相对严谨的 GNN 量化研究框架，可以从这些表开始：

stock_universe(date, symbol, tradable, industry, market_cap, st_flag, suspend_flag)
node_features(date, symbol, feature_name, value, asof_time)
edges(date, src_symbol, dst_symbol, edge_type, weight, sign, asof_time, valid_from, valid_to)
labels(date, symbol, horizon, forward_return, benchmark_return, excess_return)
prices(date, symbol, open, high, low, close, volume, amount, adj_factor)

关键是 asof_time。在金融研究里，数据什么时候发生不够，必须知道研究者在什么时候能知道它。

图构建

图构建可以分成三层：

经济关系图
供应链、股权、行业、上下游、竞争关系，优点是可解释，缺点是更新慢、覆盖不全。
统计关系图
收益相关性、残差相关性、成交相关性、资金流相关性，优点是覆盖广，缺点是容易把共同 beta 当成关系。
信息关系图
新闻共现、公告主题、分析师覆盖、社交媒体、研报文本相似度，优点是响应快，缺点是噪声大。

生产实践里更合理的是多关系图，而不是单一图。每类边单独编码，再由模型学习不同关系的权重。

模型层

一个基础模型可以是：

node features
  -> feature encoder
  -> relation-aware GNN / GAT / HGT / temporal GNN
  -> node embedding
  -> ranking head
  -> stock score

如果只做单一产业链图，GCN/GAT 就够做原型。如果有多类型边，应该考虑 R-GCN、HAN、HGT 或自定义 relation-aware message passing。如果边是事件流，应考虑 TGN 或时间快照 GNN。

训练目标

直接回归收益很常见，但不是总是最优。量化选股更关心排序和组合表现。可选目标包括：

回归未来超额收益。
二分类预测是否跑赢横截面中位数。
pairwise ranking loss。
listwise ranking loss。
组合层目标，例如最大化风险调整收益的 surrogate。

在噪声较大的市场里，排序目标通常比精确收益回归更稳健。

回测层

没有严格回测，GNN 因子很容易看起来很好。最低限度应检查：

时间切分是否严格，无未来信息。
股票池是否按历史成分处理。
停牌、涨跌停、ST、退市是否处理。
交易价格是否可成交。
手续费、印花税、滑点、冲击成本是否纳入。
调仓频率和换手是否现实。
行业、市值、风格暴露是否中性化。
多阶段、多市场、多参数扰动是否稳定。
IC、RankIC、分组收益、回撤、换手、容量是否同时报告。

微信文章给出的思路适合作为研究起点，但如果没有这些细节，不能把展示性回测等同于可交易策略。

金融 GNN 的特殊风险

关系边质量决定上限

微信文章提到的 Ghost Edges，本质是关系边过时或错误。比如两家公司曾经有大客户关系，但合同已经终止；或者供应链数据库更新滞后，模型仍然沿旧边传播信号。这类错误在 GNN 中会被放大，因为边不仅是特征，而是信息传播路径。

缓解方法包括：

给边设置有效期和衰减。
对低置信度边降权。
用多数据源交叉验证边。
对关键边做 ablation，看模型是否过度依赖。
用动态图而不是全样本静态图。

拥挤交易会侵蚀 alpha

如果 GNN 因子真的有效，使用者变多后也会拥挤。产业链 lead-lag 这类信号尤其容易被快资金压缩。研究中必须评估换手、容量、冲击成本和信号衰减速度。

可解释性不能只看 attention

金融策略上线需要解释，但 GAT attention 不应被直接当作因果解释。更可靠的解释包括：

边删除实验。
节点特征置换。
时间窗口稳定性。
不同市场阶段的边权分布。
对已知事件做 case study。

从应用回到理论：GNN 到底学到了什么

GNN 的本质不是“更高级的神经网络”，而是一种图结构上的归纳偏置。它假设节点的预测与邻域结构有关，并通过可学习的消息传递来编码这种关系。

这个归纳偏置在三类问题上特别合适：

关系本身有经济或物理含义。
局部邻域信息对节点预测有帮助。
图结构在训练和预测时可获得，并且没有严重未来泄漏。

它在三类问题上容易失败：

图边质量很差，关系大多是噪声。
任务依赖长距离复杂结构，普通 MPNN 表达不足。
图是强异配图，但模型按同配假设做平滑。

对量化投资来说，GNN 的优势不是神秘的“AI 发现隐藏规律”，而是把产业链、资金链、信息链这种原本难以手工完整编码的结构，放进一个可学习、可验证、可回测的模型框架里。

阅读路线

如果从量化应用反推 GNN 理论，我建议按下面顺序读：

先读 GCN、GraphSAGE、GAT，理解邻域聚合和注意力。
再读 MPNN，建立统一抽象。
读 GIN，理解 1-WL 表达力边界。
读 over-smoothing、over-squashing、heterophily，理解 GNN 为什么会失败。
读 HAN/HGT/TGN，进入异构图和动态图。
读 Graphormer/GraphGPS，理解 Graph Transformer。
读 Deep Graph Infomax、GraphCL、GraphMAE，理解自监督预训练。
最后读金融图学习论文，把理论映射回选股、排序和回测。

这条路线比直接堆模型更稳，因为它从“为什么需要图”走到“图模型如何传播信息”，再走到“什么时候不能信这个传播”。

文献地图

如果按研究脉络整理，GNN 文献大致可以分成几组。早期基础可以从 Gori 等人的图域学习模型和 Scarselli 等人的 GNN 固定点模型开始$^{[2]}$ $^{[3]}$。谱方法主线包括 Spectral Networks 和 ChebNet，它们解释了图卷积如何从 Laplacian 频域出发，再走向局部化近似$^{[4]}$ $^{[5]}$ 。现代实用主线则由 GCN、GraphSAGE、MPNN、GAT 和 GIN 构成，分别对应归一化邻域聚合、归纳采样、统一消息传递、注意力边权和 1-WL 表达力分析$^{[6]}$ $^{[7]}$ $^{[8]}$ $^{[9]}$ $^{[10]}$。

综述类文献适合放在第二轮阅读。Zhou 等人和 Wu 等人的综述覆盖了早期 GNN 方法、应用和分类体系$^{[11]}$ $^{[12]}$；Geometric Deep Learning 则从对称性、群、流形和图的统一视角解释深度学习结构归纳偏置$^{[13]}$。金融应用主线可以先读 Temporal Relational Ranking，再看时间异构图、财报电话会异构图和多关系动态图股票预测，这几篇和“GNN 量化因子”关系最直接$^{[14]}$ $^{[15]}$ $^{[16]}$ $^{[17]}$。

模型改进和失效模式可以按问题读。GATv2 修正原始 GAT 的注意力表达限制$^{[18]}$；Jumping Knowledge、GCNII 和 GPR-GNN 分别从跨层表示、深层残差和 PageRank 传播角度缓解深层 GNN 问题$^{[19]}$ $^{[20]}$ $^{[21]}$；H2GCN 代表异配图学习方向$^{[22]}$；over-squashing 相关工作解释了为什么远距离信息会被图结构瓶颈压缩$^{[23]}$ $^{[24]}$。异构图和动态图则重点读 HAN、HGT、TGN 和时间图综述$^{[25]}$ $^{[26]}$ $^{[27]}$ $^{[28]}$。

近年的新主线是 Graph Transformer、自监督和图基础模型。Graphormer、GraphGPS 和 Graph Transformer Survey 对应结构编码、局部-全局混合架构和综述入口$^{[29]}$ $^{[30]}$ $^{[31]}$；Graph Foundation Models 和 GraphFM 代表 2025 年左右的通用图模型趋势$^{[32]}$ $^{[33]}$。自监督方面，Deep Graph Infomax、GraphCL、BGRL 和 GraphMAE 分别代表互信息、对比学习、bootstrap 和 masked autoencoding 路线$^{[34]}$ $^{[35]}$ $^{[36]}$ $^{[37]}$。工程和评测层面，Open Graph Benchmark 和 Benchmarking Graph Neural Networks 是理解公开基准、任务划分和实验可复现性的关键入口$^{[38]}$ $^{[39]}$。

小结

从 GNN 量化因子切入，最容易看到的是应用叙事：股票之间有关系，GNN 能看见关系，所以能生成更强因子。这个叙事有价值，但不够严谨。真正的 GNN 量化研究必须同时处理三件事。

第一，金融图的构建必须可信。边的来源、方向、类型、时效、置信度和时间可得性，往往比模型结构更重要。

第二，GNN 的理论边界必须清楚。GCN/GAT/MPNN 擅长局部消息传递，但会遇到 over-smoothing、over-squashing、heterophily 和 1-WL 表达力限制。

第三，回测必须严格。GNN 很容易通过未来边、全样本标准化、成分股幸存者偏差、交易成本忽略等方式产生虚假收益。

如果这些问题处理得足够严谨，GNN 在量化中的价值不是替代传统因子，而是提供一种新的因子生成方式：把单股特征、关系结构和动态市场状态统一到一个可学习的图模型中。

参考文献

[1] 数量技术宅. 降维打击！量化圈的新晋“印钞机”：图神经网络(GNN) 产业链因子全解析与深度进阶. 微信公众号, 2026.

[2] Gori, M., Monfardini, G., and Scarselli, F. A New Model for Learning in Graph Domains. IJCNN, 2005.

[3] Scarselli, F., Gori, M., Tsoi, A. C., Hagenbuchner, M., and Monfardini, G. The Graph Neural Network Model. IEEE Transactions on Neural Networks, 2009.

[4] Bruna, J., Zaremba, W., Szlam, A., and LeCun, Y. Spectral Networks and Locally Connected Networks on Graphs. arXiv, 2013.

[5] Defferrard, M., Bresson, X., and Vandergheynst, P. Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering. NeurIPS, 2016.

[6] Kipf, T. N., and Welling, M. Semi-Supervised Classification with Graph Convolutional Networks. ICLR, 2017.

[7] Hamilton, W. L., Ying, R., and Leskovec, J. Inductive Representation Learning on Large Graphs. NeurIPS, 2017.

[8] Gilmer, J., Schoenholz, S. S., Riley, P. F., Vinyals, O., and Dahl, G. E. Neural Message Passing for Quantum Chemistry. ICML, 2017.

[9] Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., and Bengio, Y. Graph Attention Networks. ICLR, 2018.

[10] Xu, K., Hu, W., Leskovec, J., and Jegelka, S. How Powerful are Graph Neural Networks? ICLR, 2019.

[11] Zhou, J., Cui, G., Hu, S., Zhang, Z., Yang, C., Liu, Z., Wang, L., Li, C., and Sun, M. Graph Neural Networks: A Review of Methods and Applications. arXiv, 2018.

[12] Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C., and Philip, S. Y. A Comprehensive Survey on Graph Neural Networks. arXiv, 2019.

[13] Bronstein, M. M., Bruna, J., Cohen, T., and Velickovic, P. Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges. arXiv, 2021.

[14] Feng, F., He, X., Wang, X., Luo, C., Liu, Y., and Chua, T. S. Temporal Relational Ranking for Stock Prediction. arXiv, 2018.

[15] Xiang, S., Cheng, D., Shang, C., Zhang, Y., and Liang, Y. Temporal and Heterogeneous Graph Neural Network for Financial Time Series Prediction. arXiv, 2023.

[16] Liu, X., et al. ECHO-GL: Earnings Calls-Driven Heterogeneous Graph Learning for Stock Movement Prediction. AAAI, 2024.

[17] Sun, S., Zhang, X., Zheng, J., Zheng, J., Chen, Z., and Wei, W. MDGNN: Multi-Relational Dynamic Graph Neural Network for Comprehensive and Dynamic Stock Investment Prediction. arXiv, 2024.

[18] Brody, S., Alon, U., and Yahav, E. How Attentive are Graph Attention Networks? ICLR, 2022.

[19] Xu, K., Li, C., Tian, Y., Sonobe, T., Kawarabayashi, K., and Jegelka, S. Representation Learning on Graphs with Jumping Knowledge Networks. ICML, 2018.

[20] Chen, M., Wei, Z., Huang, Z., Ding, B., and Li, Y. Simple and Deep Graph Convolutional Networks. ICML, 2020.

[21] Chien, E., Peng, J., Li, P., and Milenkovic, O. Adaptive Universal Generalized PageRank Graph Neural Network. ICLR, 2021.

[22] Zhu, J., Yan, Y., Zhao, L., Heimann, M., Akoglu, L., and Koutra, D. Beyond Homophily in Graph Neural Networks: Current Limitations and Effective Designs. arXiv, 2020.

[23] Alon, U., and Yahav, E. On the Bottleneck of Graph Neural Networks and its Practical Implications. ICLR, 2021.

[24] Topping, J., Di Giovanni, F., Chamberlain, B. P., Dong, X., and Bronstein, M. M. Understanding over-squashing and bottlenecks on graphs via curvature. ICLR, 2022.

[25] Wang, X., Ji, H., Shi, C., Wang, B., Ye, Y., Cui, P., and Yu, P. S. Heterogeneous Graph Attention Network. WWW, 2019.

[26] Hu, Z., Dong, Y., Wang, K., and Sun, Y. Heterogeneous Graph Transformer. WWW, 2020.

[27] Rossi, E., Chamberlain, B., Frasca, F., Eynard, D., Monti, F., and Bronstein, M. Temporal Graph Networks for Deep Learning on Dynamic Graphs. arXiv, 2020.

[28] Kazemi, S. M., et al. Graph Neural Networks for Temporal Graphs: State of the Art, Open Challenges, and Opportunities. arXiv, 2023.

[29] Ying, C., Cai, T., Luo, S., Zheng, S., Ke, G., He, D., Shen, Y., and Liu, T. Y. Do Transformers Really Perform Badly for Graph Representation? NeurIPS, 2021.

[30] Rampasek, L., Galkin, M., Dwivedi, V. P., Luu, A. T., Wolf, G., and Beaini, D. Recipe for a General, Powerful, Scalable Graph Transformer. NeurIPS, 2022.

[31] Min, E., Chen, R., Bian, Y., Xu, T., Zhao, K., Huang, W., Zhao, P., Huang, J., Ananiadou, S., and Rong, Y. Graph Transformers: A Survey. arXiv, 2024.

[32] Wang, X., et al. Graph Foundation Models: A Comprehensive Survey. arXiv, 2025.

[33] Lachi, V., et al. GraphFM: A generalist graph transformer that learns transferable representations across diverse domains. TMLR, 2025.

[34] Velickovic, P., Fedus, W., Hamilton, W. L., Lio, P., Bengio, Y., and Hjelm, R. D. Deep Graph Infomax. ICLR, 2019.

[35] You, Y., Chen, T., Sui, Y., Chen, T., Wang, Z., and Shen, Y. Graph Contrastive Learning with Augmentations. NeurIPS, 2020.

[36] Thakoor, S., Tallec, C., Azar, M. G., Munos, R., Velickovic, P., and Valko, M. Bootstrapped Representation Learning on Graphs. ICLR Workshop, 2021.

[37] Hou, Z., Liu, X., Cen, Y., Dong, Y., Yang, H., Wang, C., and Tang, J. GraphMAE: Self-Supervised Masked Graph Autoencoders. KDD, 2022.

[38] Hu, W., Fey, M., Zitnik, M., Dong, Y., Ren, H., Liu, B., Catasta, M., and Leskovec, J. Open Graph Benchmark: Datasets for Machine Learning on Graphs. NeurIPS, 2020.

[39] Dwivedi, V. P., et al. Benchmarking Graph Neural Networks. JMLR, 2023.