图神经网络(Graph Neural Network, GNN)在量化投资中的吸引力,来自一个朴素但重要的判断:股票不是彼此独立的样本点,而是处在供应链、产业链、股权、资金、分析师覆盖、新闻传播和交易行为共同构成的关系网络中。传统多因子模型通常把每只股票压成一行特征,重点看估值、动量、质量、成长、波动、换手等单体变量;GNN 则试图把“关系”也变成可学习的输入,让模型在图上做信息传播,从而捕捉 lead-lag、产业传导、风险外溢和群体行为。微信文章《降维打击!量化圈的新晋“印钞机”:图神经网络(GNN) 产业链因子全解析与深度进阶》把这个方向讲成一个量化实战故事:构建股票关系图,把供应链、大股东重叠、共同分析师覆盖等关系作为边,再用 GCN/GAT 生成产业链联动因子,和传统动量因子对比回测$^{[1]}$。这类文章的优点是把 GNN 的应用场景讲得直观,缺点是容易把研究原型讲成稳定 alpha。真正理解 GNN 量化因子,需要同时回答两个问题:金融问题到底被怎样图建模?GNN 的理论能力和边界到底在哪里?本文从这篇 GNN + 量化应用切入,逐层深入到图神经网络的理论原理、主流模型谱系、表达能力、常见失效模式、金融落地风险和核心参考文献。
从量化应用看 GNN 的问题意识
传统多因子模型的隐含假设
经典横截面多因子模型通常写成:
\[r_{i,t+1} = f(x_{i,t}) + \epsilon_{i,t}\]其中 $x_{i,t}$ 是股票 $i$ 在时点 $t$ 的特征,例如估值、动量、盈利、波动率、分析师预期、资金流等。即使模型使用 XGBoost、LightGBM、MLP 或 Transformer,只要输入结构仍然是一只股票一行,它就很容易落入一个默认假设:股票之间的关系只通过特征间接表达,而不是模型结构的一部分。
这个假设在金融市场里明显不完整。比如:
- 上游原材料涨价会影响中游制造企业利润。
- 核心客户订单变化会传导到供应商收入预期。
- 龙头股的价格变化会带动同行业或上下游资产重估。
- 同一批机构持仓的股票会出现共同交易冲击。
- 同一分析师覆盖、同一新闻主题、同一产业政策会造成信息同步。
传统模型可以把行业哑变量、上下游价格指数、共同持仓指标手工做成特征,但这些关系一旦变多,手工特征会迅速膨胀,而且难以表达多跳传导和动态权重。GNN 的切入点就是把这些实体和关系显式建成图。
股票市场可以被看成一张图
把股票市场建成图,最小形式是:
\[G_t = (V_t, E_t, X_t, R_t)\]其中:
- $V_t$ 是时点 $t$ 可交易股票集合。
- $E_t$ 是股票之间的边,可以来自产业链、供应链、股权、共同基金持仓、新闻共现、收益相关性等。
- $X_t$ 是节点特征,即每只股票自己的因子。
- $R_t$ 是边特征或关系类型,例如上游、下游、竞争对手、同一控股股东、共同分析师覆盖、收益相关边等。
最终任务可以是:
- 节点回归:预测每只股票未来收益、波动、风险暴露。
- 节点排序:预测横截面排名,用于 long-short 或 top-k 组合。
- 边预测:预测某种关系是否形成或增强。
- 图级预测:预测行业、主题、市场状态。
量化选股最常见的是节点排序。一个简化目标可以写成:
\[s_{i,t} = \mathrm{GNN}(G_t, X_t)_i\]其中 $s_{i,t}$ 是股票 $i$ 的 GNN 因子分数。策略层再根据分数做排序、行业中性、风险约束和组合优化。
产业链因子的本质
微信文章强调的“产业链 GNN 因子”可以理解为一种关系增强因子。它不只看股票自己过去涨跌,而是看与它有经济关系的其他股票发生了什么。
例如上游煤炭价格上涨:
- 对煤炭企业可能是收入和利润改善。
- 对火电企业可能是成本压力。
- 对高耗能制造企业可能是利润压缩。
- 对新能源替代链条可能是需求预期改善。
如果只看单股动量,模型可能只能看到煤炭股上涨;如果有产业链图,模型有机会把上游变化传到下游节点,并学习不同关系方向上的正负影响。这正是 GNN 对量化投资的核心价值:把经济传导机制变成模型的结构归纳偏置。
GNN 的核心抽象:消息传递
从图上状态传播开始
现代 GNN 的大部分模型都可以归入消息传递神经网络(Message Passing Neural Network, MPNN)框架。Gilmer 等人在量子化学任务中系统化了这个表述$^{[8]}$。一般形式是:
\[m_v^{(k)} = \mathrm{AGG}^{(k)}\left(\left\{M^{(k)}(h_v^{(k)}, h_u^{(k)}, e_{uv}) : u \in \mathcal{N}(v)\right\}\right)\] \[h_v^{(k+1)} = U^{(k)}(h_v^{(k)}, m_v^{(k)})\]这里:
- $h_v^{(k)}$ 是节点 $v$ 在第 $k$ 层的表示。
- $u \in \mathcal{N}(v)$ 表示 $v$ 的邻居。
- $e_{uv}$ 是边特征。
- $M$ 是消息函数。
- $\mathrm{AGG}$ 是聚合函数,必须对邻居顺序不敏感。
- $U$ 是节点更新函数。
对股票图来说,消息传递的含义很直观:某只股票的新表示,来自它自己的特征,以及产业链邻居、同行、共同资金持仓股票等邻居节点的信息。
为什么聚合函数必须置换不变
图和序列不同。序列中第一个 token、第二个 token 的顺序有含义;但一个节点的邻居集合没有天然顺序。供应商 A 和供应商 B 在邻居列表里谁排第一,不应该影响模型输出。因此 GNN 的邻居聚合通常要求置换不变:
\[\mathrm{AGG}(\{h_1, h_2, h_3\}) = \mathrm{AGG}(\{h_3, h_1, h_2\})\]常见聚合函数包括 mean、sum、max、attention-weighted sum。GIN 论文特别指出,sum 聚合在表达多重集合时比 mean/max 更强,这和 GNN 的 Weisfeiler-Lehman 表达能力分析直接相关$^{[10]}$。
图卷积不是普通二维卷积
CNN 在图像上做卷积,是因为像素处在规则网格上,每个位置都有固定邻域结构。图没有固定网格,每个节点度数不同,邻居无序,图大小也可变。图卷积的核心不是“滑动窗口”,而是“邻域聚合”。
GCN 的经典形式来自 Kipf 和 Welling$^{[6]}$:
\[H^{(l+1)} = \sigma\left(\tilde{D}^{-\frac{1}{2}}\tilde{A}\tilde{D}^{-\frac{1}{2}}H^{(l)}W^{(l)}\right)\]其中:
- $\tilde{A} = A + I$,给图加自环。
- $\tilde{D}$ 是 $\tilde{A}$ 的度矩阵。
- $H^{(l)}$ 是第 $l$ 层节点表示。
- $W^{(l)}$ 是可学习参数。
这可以理解为:每一层都把一个节点和邻居节点的表示做归一化平均,再做线性变换和非线性激活。放到股票图里,它就是“自己因子 + 邻居因子”的加权融合。
从 GCN 到 GAT:边权如何被学习
固定边权的问题
如果产业链数据告诉我们 A 公司向 B 公司供货,占 B 成本的 20%,那么可以把这条边的权重设为 0.2。但固定边权在金融里经常不够:
- 宏观环境变化时,同一条边的重要性会变化。
- 成本传导和需求传导方向不同。
- 一条边对收益、波动、风险的作用可能不同。
- 数据供应商给出的关系强度可能过时或粗糙。
因此,量化场景里常需要让模型动态学习边权。
GAT 的注意力机制
Graph Attention Networks (GAT) 用注意力机制学习邻居权重$^{[9]}$。简化写法是:
\[e_{ij} = a(Wh_i, Wh_j)\] \[\alpha_{ij} = \frac{\exp(\mathrm{LeakyReLU}(e_{ij}))}{\sum_{k \in \mathcal{N}(i)} \exp(\mathrm{LeakyReLU}(e_{ik}))}\] \[h_i' = \sigma\left(\sum_{j \in \mathcal{N}(i)} \alpha_{ij}Wh_j\right)\]在金融图里,$\alpha_{ij}$ 可以理解为模型认为“邻居 $j$ 对股票 $i$ 当前预测有多重要”。在牛市、通胀、政策冲击、流动性收缩等不同环境下,注意力权重可能发生变化。微信文章提到的“牛市关注下游扩产、滞胀关注上游资源约束”,本质就是动态边权的直观解释$^{[1]}$。
GAT 不是万能解释器
需要谨慎的是,GAT 的 attention weight 不等于严格因果解释。它只是模型内部的加权机制,可能受到特征尺度、图结构、训练目标、正则化和数据噪声影响。GATv2 指出原始 GAT 的注意力形式存在静态注意力问题,并给出了更灵活的动态注意力设计$^{[18]}$。在金融场景中,如果要把 attention 当解释使用,至少应配合稳定性检验、扰动实验和时间外验证。
GNN 模型谱系
早期图神经网络
GNN 并不是近几年才出现。Gori 等人在 2005 年提出图域学习模型$^{[2]}$,Scarselli 等人在 2009 年给出了更系统的 Graph Neural Network Model$^{[3]}$。早期模型通常把节点状态定义为递归方程,通过迭代传播直到收敛。
这类模型强调的是图上依赖关系的固定点表达,但训练复杂、效率较低,也没有今天深度学习框架下的标准消息传递接口。
谱方法
图谱方法从图 Laplacian 的特征分解出发,试图在图频域定义卷积。Bruna 等人的 Spectral Networks 是代表性早期工作$^{[4]}$。Defferrard 等人的 ChebNet 使用 Chebyshev 多项式近似谱滤波,使图卷积局部化并降低计算成本$^{[5]}$。
谱方法的理论很优雅,但对图结构变化不够友好。量化投资中的股票池会变化,关系图也随时间变化,因此完全依赖固定图谱分解的模型不太方便。
GCN
GCN 可以看成谱方法的一阶近似,也可以看成一种简单的空间邻域聚合。它结构简洁、计算高效、易于实现,是 GNN 入门和许多应用原型的起点$^{[6]}$。
但 GCN 的限制也明显:
- 默认邻居越相似越好,适合同配图。
- 边类型和边方向表达能力有限。
- 多层堆叠容易过平滑。
- 对动态图和异构图支持不自然。
GraphSAGE
GraphSAGE 解决的核心问题是归纳学习和大图采样$^{[7]}$。它不需要对整张图做完整传播,而是采样邻居并学习聚合函数。因此它适合大规模图和新节点泛化。
在金融里,新上市股票、新增关系、动态股票池都要求模型具备归纳能力。GraphSAGE 的思想比纯转导式 GCN 更贴近生产环境。
MPNN
MPNN 是一个统一框架,不是单一模型$^{[8]}$。它把 GCN、GAT、边特征模型、分子图模型等都放到“消息函数 + 聚合函数 + 更新函数”的抽象里。理解 MPNN 后,再看各种 GNN 变体会清晰很多:多数创新都发生在消息函数、聚合函数、更新函数、读出函数或图结构重写上。
GIN 与表达能力
GIN 论文提出一个关键观点:标准消息传递 GNN 的表达能力至多与 1-dimensional Weisfeiler-Lehman (1-WL) 图同构测试相当$^{[10]}$。如果 1-WL 分不清两个图,普通 MPNN 通常也分不清。
GIN 的核心更新形式是:
\[h_v^{(k)} = \mathrm{MLP}^{(k)}\left((1+\epsilon^{(k)})h_v^{(k-1)} + \sum_{u \in \mathcal{N}(v)}h_u^{(k-1)}\right)\]它强调 sum 聚合和 MLP 的组合,以尽量增强多重集合表达能力。对金融应用而言,这个理论提醒我们:GNN 不是自动拥有任意图推理能力。它很擅长局部邻域信息传播,但对某些高阶结构、长距离依赖和复杂子图模式,普通 MPNN 可能不够。
GNN 的三类核心失效模式
Over-smoothing:越深越像
GCN 类模型层数增加后,节点表示会反复与邻居平均,最终不同节点表示趋同,失去区分度。这就是 over-smoothing。微信文章也提到,量化中通常只看一到两阶邻居,过深会让股票因子分数趋同$^{[1]}$。
在选股里,过平滑尤其危险。选股需要的是横截面差异,如果所有股票表示都被行业、产业链或市场共同因子抹平,模型可能变成一个行业 beta 或市场情绪提取器,而不是可用 alpha。
应对方法包括:
- 残差连接和初始表示保留,例如 GCNII$^{[20]}$。
- Jumping Knowledge,把不同层表示组合起来$^{[19]}$。
- APPNP/GPR-GNN,用传播和预测解耦$^{[21]}$。
- 限制传播层数,只做一到两跳经济可解释传播。
Over-squashing:远距离信息被压扁
Over-squashing 指的是远距离大量信息通过有限维向量传到目标节点时,被压缩到难以保留有效信号$^{[23]}$。在图上,如果从远端节点到目标节点的路径很多但瓶颈很窄,信息很容易被挤压。
金融图里也有类似问题。一个宏观冲击可能沿多个行业、多层供应链传播,但如果模型只用固定维度表示聚合多跳信息,远端重要信号可能被淹没。
应对方向包括图重连、位置编码、长程注意力、Graph Transformer 和基于曲率或有效电阻的结构分析$^{[24]}$。
Heterophily:邻居并不相似
很多 GNN 假设相邻节点应该相似,这叫 homophily。但金融图经常是异配的:
- 上游涨价对上游是利好,对下游可能是利空。
- 竞争对手之间可能一涨一跌。
- 债务链和担保链可能传递风险,而不是相似收益。
- 供应商和客户的收益方向可能不一致。
如果简单做邻居平均,就可能把相反信号混在一起。H2GCN、Geom-GCN、GPR-GNN 等工作都在处理异配图学习问题$^{[21]}$ $^{[22]}$。对量化来说,关系边必须有方向、类型和符号,不能把所有边都当作“越相邻越相似”。
异构图与动态图:金融场景的真实形态
为什么金融图天然异构
股票关系图通常不是单一边类型。至少有:
- 供应商到客户。
- 客户到供应商。
- 同行业竞争。
- 同集团或股东关系。
- 共同基金持仓。
- 分析师共同覆盖。
- 新闻事件共现。
- 收益相关性或残差相关性。
这些关系的语义不同,传导方向不同,时间稳定性也不同。如果把所有边合并成一个邻接矩阵,会损失大量信息。异构图神经网络的目标就是在多类型节点、多类型边上学习。
HAN 使用 meta-path 和 attention 处理异构图$^{[25]}$;HGT 使用类型相关的 Transformer 风格注意力处理异构图$^{[26]}$。金融应用中,如果同时建模股票、行业、公司公告、新闻、机构、分析师、基金等节点,HGT 这类模型更自然。
为什么金融图必须带时间
静态图是金融 GNN 研究中最常见的简化,也是最容易出问题的地方。真实关系随时间变化:
- 供应链合同会变。
- 持仓披露有滞后。
- 分析师覆盖会变。
- 股权关系会变。
- 相关性边在 regime 切换时会变。
- 新闻和事件边高度短期。
如果使用未来才知道的边或特征,就会产生严重的 look-ahead bias。因此生产级金融 GNN 应该使用 $G_t$,而不是一个全样本静态图。
Temporal Graph Networks (TGN) 把动态图事件流、节点记忆和时间编码结合起来,是动态图学习的重要代表$^{[27]}$。动态图综述也强调,时间图学习需要区分离散快照图和连续时间事件图$^{[28]}$。
对量化投资来说,动态图建模至少要满足:
- 每条边有生效时间和失效时间。
- 特征、标签、边都按 as-of time 对齐。
- 训练和回测不能使用未来修订后的关系。
- 对披露滞后和数据供应商更新时间做处理。
Graph Transformer 与图基础模型
为什么要把 Transformer 引入图
普通 MPNN 擅长局部传播,但长程依赖和全局结构较弱。Transformer 的优势是全局 attention,因此自然被引入图学习。
Graphormer 通过中心性编码、空间编码和边编码,把图结构注入 Transformer,并在图表示任务上取得强结果$^{[29]}$。GraphGPS 则提出一种更通用的 recipe,把局部 MPNN 和全局 Transformer 结合起来,试图同时保留局部结构归纳偏置和长程建模能力$^{[30]}$。
在金融图里,Graph Transformer 的潜在价值包括:
- 捕捉远距离产业链传导。
- 同时建模局部供应链和全市场共振。
- 将行业、主题、宏观状态作为全局 token 或结构编码。
- 缓解普通消息传递的 over-squashing。
图基础模型的趋势
2024-2025 年,图学习开始明显向预训练、跨域迁移和图基础模型演进。Graph Foundation Models 综述系统整理了这个方向,包括图预训练、图提示学习、多任务迁移、图-文本融合等$^{[32]}$。GraphFM 等工作则尝试训练可跨领域迁移的通用图 Transformer$^{[33]}$。
这对量化研究有启发,但也要谨慎。金融图分布高度非平稳,跨市场、跨时期迁移很难。图基础模型可能有助于结构表示和冷启动,但最终仍要接受时间外回测、交易成本和容量约束检验。
自监督学习与图预训练
金融标签噪声很大,未来收益的信噪比低。相比直接监督预测收益,图自监督学习可以先学习结构表示,再用于下游任务。
典型方法包括:
- Deep Graph Infomax,通过最大化局部节点表示和全局图表示的互信息学习节点表示$^{[34]}$。
- GraphCL,通过图增强和对比学习获得鲁棒表示$^{[35]}$。
- BGRL,用 bootstrap 方式做图表示学习,避免显式负样本$^{[36]}$。
- GraphMAE,用 masked autoencoder 思路重建节点特征$^{[37]}$。
在金融中,自监督任务可以设计为:
- mask 一部分节点因子,预测缺失特征。
- mask 一部分产业链边,预测关系存在。
- 用不同时间窗口或不同数据源构造图增强。
- 对同一公司的公告、新闻、财务、价格节点做跨模态对齐。
但要注意,自监督预训练同样可能发生时间泄漏。如果预训练用到了未来关系或未来全样本统计,再用于历史回测,结果会虚高。
GNN 量化因子的落地框架
数据层
一个相对严谨的 GNN 量化研究框架,可以从这些表开始:
stock_universe(date, symbol, tradable, industry, market_cap, st_flag, suspend_flag)
node_features(date, symbol, feature_name, value, asof_time)
edges(date, src_symbol, dst_symbol, edge_type, weight, sign, asof_time, valid_from, valid_to)
labels(date, symbol, horizon, forward_return, benchmark_return, excess_return)
prices(date, symbol, open, high, low, close, volume, amount, adj_factor)
关键是 asof_time。在金融研究里,数据什么时候发生不够,必须知道研究者在什么时候能知道它。
图构建
图构建可以分成三层:
-
经济关系图
供应链、股权、行业、上下游、竞争关系,优点是可解释,缺点是更新慢、覆盖不全。 -
统计关系图
收益相关性、残差相关性、成交相关性、资金流相关性,优点是覆盖广,缺点是容易把共同 beta 当成关系。 -
信息关系图
新闻共现、公告主题、分析师覆盖、社交媒体、研报文本相似度,优点是响应快,缺点是噪声大。
生产实践里更合理的是多关系图,而不是单一图。每类边单独编码,再由模型学习不同关系的权重。
模型层
一个基础模型可以是:
node features
-> feature encoder
-> relation-aware GNN / GAT / HGT / temporal GNN
-> node embedding
-> ranking head
-> stock score
如果只做单一产业链图,GCN/GAT 就够做原型。如果有多类型边,应该考虑 R-GCN、HAN、HGT 或自定义 relation-aware message passing。如果边是事件流,应考虑 TGN 或时间快照 GNN。
训练目标
直接回归收益很常见,但不是总是最优。量化选股更关心排序和组合表现。可选目标包括:
- 回归未来超额收益。
- 二分类预测是否跑赢横截面中位数。
- pairwise ranking loss。
- listwise ranking loss。
- 组合层目标,例如最大化风险调整收益的 surrogate。
在噪声较大的市场里,排序目标通常比精确收益回归更稳健。
回测层
没有严格回测,GNN 因子很容易看起来很好。最低限度应检查:
- 时间切分是否严格,无未来信息。
- 股票池是否按历史成分处理。
- 停牌、涨跌停、ST、退市是否处理。
- 交易价格是否可成交。
- 手续费、印花税、滑点、冲击成本是否纳入。
- 调仓频率和换手是否现实。
- 行业、市值、风格暴露是否中性化。
- 多阶段、多市场、多参数扰动是否稳定。
- IC、RankIC、分组收益、回撤、换手、容量是否同时报告。
微信文章给出的思路适合作为研究起点,但如果没有这些细节,不能把展示性回测等同于可交易策略。
金融 GNN 的特殊风险
关系边质量决定上限
微信文章提到的 Ghost Edges,本质是关系边过时或错误。比如两家公司曾经有大客户关系,但合同已经终止;或者供应链数据库更新滞后,模型仍然沿旧边传播信号。这类错误在 GNN 中会被放大,因为边不仅是特征,而是信息传播路径。
缓解方法包括:
- 给边设置有效期和衰减。
- 对低置信度边降权。
- 用多数据源交叉验证边。
- 对关键边做 ablation,看模型是否过度依赖。
- 用动态图而不是全样本静态图。
相关不是因果
统计相关边很容易引入虚假关系。两只股票相关,可能只是因为同一个行业 beta、同一个市场风格或同一个宏观因子。如果模型沿相关边传播,可能只是强化共同风险暴露。
更稳健的做法是先剥离市场、行业、风格暴露,在残差上构建统计边,或者把统计边和经济边分开建模。
拥挤交易会侵蚀 alpha
如果 GNN 因子真的有效,使用者变多后也会拥挤。产业链 lead-lag 这类信号尤其容易被快资金压缩。研究中必须评估换手、容量、冲击成本和信号衰减速度。
可解释性不能只看 attention
金融策略上线需要解释,但 GAT attention 不应被直接当作因果解释。更可靠的解释包括:
- 边删除实验。
- 节点特征置换。
- 时间窗口稳定性。
- 不同市场阶段的边权分布。
- 对已知事件做 case study。
从应用回到理论:GNN 到底学到了什么
GNN 的本质不是“更高级的神经网络”,而是一种图结构上的归纳偏置。它假设节点的预测与邻域结构有关,并通过可学习的消息传递来编码这种关系。
这个归纳偏置在三类问题上特别合适:
- 关系本身有经济或物理含义。
- 局部邻域信息对节点预测有帮助。
- 图结构在训练和预测时可获得,并且没有严重未来泄漏。
它在三类问题上容易失败:
- 图边质量很差,关系大多是噪声。
- 任务依赖长距离复杂结构,普通 MPNN 表达不足。
- 图是强异配图,但模型按同配假设做平滑。
对量化投资来说,GNN 的优势不是神秘的“AI 发现隐藏规律”,而是把产业链、资金链、信息链这种原本难以手工完整编码的结构,放进一个可学习、可验证、可回测的模型框架里。
阅读路线
如果从量化应用反推 GNN 理论,我建议按下面顺序读:
- 先读 GCN、GraphSAGE、GAT,理解邻域聚合和注意力。
- 再读 MPNN,建立统一抽象。
- 读 GIN,理解 1-WL 表达力边界。
- 读 over-smoothing、over-squashing、heterophily,理解 GNN 为什么会失败。
- 读 HAN/HGT/TGN,进入异构图和动态图。
- 读 Graphormer/GraphGPS,理解 Graph Transformer。
- 读 Deep Graph Infomax、GraphCL、GraphMAE,理解自监督预训练。
- 最后读金融图学习论文,把理论映射回选股、排序和回测。
这条路线比直接堆模型更稳,因为它从“为什么需要图”走到“图模型如何传播信息”,再走到“什么时候不能信这个传播”。
文献地图
如果按研究脉络整理,GNN 文献大致可以分成几组。早期基础可以从 Gori 等人的图域学习模型和 Scarselli 等人的 GNN 固定点模型开始$^{[2]}$ $^{[3]}$。谱方法主线包括 Spectral Networks 和 ChebNet,它们解释了图卷积如何从 Laplacian 频域出发,再走向局部化近似$^{[4]}$ $^{[5]}$ 。现代实用主线则由 GCN、GraphSAGE、MPNN、GAT 和 GIN 构成,分别对应归一化邻域聚合、归纳采样、统一消息传递、注意力边权和 1-WL 表达力分析$^{[6]}$ $^{[7]}$ $^{[8]}$ $^{[9]}$ $^{[10]}$。
综述类文献适合放在第二轮阅读。Zhou 等人和 Wu 等人的综述覆盖了早期 GNN 方法、应用和分类体系$^{[11]}$ $^{[12]}$;Geometric Deep Learning 则从对称性、群、流形和图的统一视角解释深度学习结构归纳偏置$^{[13]}$。金融应用主线可以先读 Temporal Relational Ranking,再看时间异构图、财报电话会异构图和多关系动态图股票预测,这几篇和“GNN 量化因子”关系最直接$^{[14]}$ $^{[15]}$ $^{[16]}$ $^{[17]}$。
模型改进和失效模式可以按问题读。GATv2 修正原始 GAT 的注意力表达限制$^{[18]}$;Jumping Knowledge、GCNII 和 GPR-GNN 分别从跨层表示、深层残差和 PageRank 传播角度缓解深层 GNN 问题$^{[19]}$ $^{[20]}$ $^{[21]}$;H2GCN 代表异配图学习方向$^{[22]}$;over-squashing 相关工作解释了为什么远距离信息会被图结构瓶颈压缩$^{[23]}$ $^{[24]}$。异构图和动态图则重点读 HAN、HGT、TGN 和时间图综述$^{[25]}$ $^{[26]}$ $^{[27]}$ $^{[28]}$。
近年的新主线是 Graph Transformer、自监督和图基础模型。Graphormer、GraphGPS 和 Graph Transformer Survey 对应结构编码、局部-全局混合架构和综述入口$^{[29]}$ $^{[30]}$ $^{[31]}$;Graph Foundation Models 和 GraphFM 代表 2025 年左右的通用图模型趋势$^{[32]}$ $^{[33]}$。自监督方面,Deep Graph Infomax、GraphCL、BGRL 和 GraphMAE 分别代表互信息、对比学习、bootstrap 和 masked autoencoding 路线$^{[34]}$ $^{[35]}$ $^{[36]}$ $^{[37]}$。工程和评测层面,Open Graph Benchmark 和 Benchmarking Graph Neural Networks 是理解公开基准、任务划分和实验可复现性的关键入口$^{[38]}$ $^{[39]}$。
小结
从 GNN 量化因子切入,最容易看到的是应用叙事:股票之间有关系,GNN 能看见关系,所以能生成更强因子。这个叙事有价值,但不够严谨。真正的 GNN 量化研究必须同时处理三件事。
第一,金融图的构建必须可信。边的来源、方向、类型、时效、置信度和时间可得性,往往比模型结构更重要。
第二,GNN 的理论边界必须清楚。GCN/GAT/MPNN 擅长局部消息传递,但会遇到 over-smoothing、over-squashing、heterophily 和 1-WL 表达力限制。
第三,回测必须严格。GNN 很容易通过未来边、全样本标准化、成分股幸存者偏差、交易成本忽略等方式产生虚假收益。
如果这些问题处理得足够严谨,GNN 在量化中的价值不是替代传统因子,而是提供一种新的因子生成方式:把单股特征、关系结构和动态市场状态统一到一个可学习的图模型中。
参考文献
[1] 数量技术宅. 降维打击!量化圈的新晋“印钞机”:图神经网络(GNN) 产业链因子全解析与深度进阶. 微信公众号, 2026.
[2] Gori, M., Monfardini, G., and Scarselli, F. A New Model for Learning in Graph Domains. IJCNN, 2005.
[3] Scarselli, F., Gori, M., Tsoi, A. C., Hagenbuchner, M., and Monfardini, G. The Graph Neural Network Model. IEEE Transactions on Neural Networks, 2009.
[4] Bruna, J., Zaremba, W., Szlam, A., and LeCun, Y. Spectral Networks and Locally Connected Networks on Graphs. arXiv, 2013.
[5] Defferrard, M., Bresson, X., and Vandergheynst, P. Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering. NeurIPS, 2016.
[6] Kipf, T. N., and Welling, M. Semi-Supervised Classification with Graph Convolutional Networks. ICLR, 2017.
[7] Hamilton, W. L., Ying, R., and Leskovec, J. Inductive Representation Learning on Large Graphs. NeurIPS, 2017.
[8] Gilmer, J., Schoenholz, S. S., Riley, P. F., Vinyals, O., and Dahl, G. E. Neural Message Passing for Quantum Chemistry. ICML, 2017.
[9] Velickovic, P., Cucurull, G., Casanova, A., Romero, A., Lio, P., and Bengio, Y. Graph Attention Networks. ICLR, 2018.
[10] Xu, K., Hu, W., Leskovec, J., and Jegelka, S. How Powerful are Graph Neural Networks? ICLR, 2019.
[11] Zhou, J., Cui, G., Hu, S., Zhang, Z., Yang, C., Liu, Z., Wang, L., Li, C., and Sun, M. Graph Neural Networks: A Review of Methods and Applications. arXiv, 2018.
[12] Wu, Z., Pan, S., Chen, F., Long, G., Zhang, C., and Philip, S. Y. A Comprehensive Survey on Graph Neural Networks. arXiv, 2019.
[13] Bronstein, M. M., Bruna, J., Cohen, T., and Velickovic, P. Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges. arXiv, 2021.
[14] Feng, F., He, X., Wang, X., Luo, C., Liu, Y., and Chua, T. S. Temporal Relational Ranking for Stock Prediction. arXiv, 2018.
[15] Xiang, S., Cheng, D., Shang, C., Zhang, Y., and Liang, Y. Temporal and Heterogeneous Graph Neural Network for Financial Time Series Prediction. arXiv, 2023.
[16] Liu, X., et al. ECHO-GL: Earnings Calls-Driven Heterogeneous Graph Learning for Stock Movement Prediction. AAAI, 2024.
[17] Sun, S., Zhang, X., Zheng, J., Zheng, J., Chen, Z., and Wei, W. MDGNN: Multi-Relational Dynamic Graph Neural Network for Comprehensive and Dynamic Stock Investment Prediction. arXiv, 2024.
[18] Brody, S., Alon, U., and Yahav, E. How Attentive are Graph Attention Networks? ICLR, 2022.
[19] Xu, K., Li, C., Tian, Y., Sonobe, T., Kawarabayashi, K., and Jegelka, S. Representation Learning on Graphs with Jumping Knowledge Networks. ICML, 2018.
[20] Chen, M., Wei, Z., Huang, Z., Ding, B., and Li, Y. Simple and Deep Graph Convolutional Networks. ICML, 2020.
[21] Chien, E., Peng, J., Li, P., and Milenkovic, O. Adaptive Universal Generalized PageRank Graph Neural Network. ICLR, 2021.
[22] Zhu, J., Yan, Y., Zhao, L., Heimann, M., Akoglu, L., and Koutra, D. Beyond Homophily in Graph Neural Networks: Current Limitations and Effective Designs. arXiv, 2020.
[23] Alon, U., and Yahav, E. On the Bottleneck of Graph Neural Networks and its Practical Implications. ICLR, 2021.
[24] Topping, J., Di Giovanni, F., Chamberlain, B. P., Dong, X., and Bronstein, M. M. Understanding over-squashing and bottlenecks on graphs via curvature. ICLR, 2022.
[25] Wang, X., Ji, H., Shi, C., Wang, B., Ye, Y., Cui, P., and Yu, P. S. Heterogeneous Graph Attention Network. WWW, 2019.
[26] Hu, Z., Dong, Y., Wang, K., and Sun, Y. Heterogeneous Graph Transformer. WWW, 2020.
[27] Rossi, E., Chamberlain, B., Frasca, F., Eynard, D., Monti, F., and Bronstein, M. Temporal Graph Networks for Deep Learning on Dynamic Graphs. arXiv, 2020.
[28] Kazemi, S. M., et al. Graph Neural Networks for Temporal Graphs: State of the Art, Open Challenges, and Opportunities. arXiv, 2023.
[29] Ying, C., Cai, T., Luo, S., Zheng, S., Ke, G., He, D., Shen, Y., and Liu, T. Y. Do Transformers Really Perform Badly for Graph Representation? NeurIPS, 2021.
[30] Rampasek, L., Galkin, M., Dwivedi, V. P., Luu, A. T., Wolf, G., and Beaini, D. Recipe for a General, Powerful, Scalable Graph Transformer. NeurIPS, 2022.
[31] Min, E., Chen, R., Bian, Y., Xu, T., Zhao, K., Huang, W., Zhao, P., Huang, J., Ananiadou, S., and Rong, Y. Graph Transformers: A Survey. arXiv, 2024.
[32] Wang, X., et al. Graph Foundation Models: A Comprehensive Survey. arXiv, 2025.
[33] Lachi, V., et al. GraphFM: A generalist graph transformer that learns transferable representations across diverse domains. TMLR, 2025.
[34] Velickovic, P., Fedus, W., Hamilton, W. L., Lio, P., Bengio, Y., and Hjelm, R. D. Deep Graph Infomax. ICLR, 2019.
[35] You, Y., Chen, T., Sui, Y., Chen, T., Wang, Z., and Shen, Y. Graph Contrastive Learning with Augmentations. NeurIPS, 2020.
[36] Thakoor, S., Tallec, C., Azar, M. G., Munos, R., Velickovic, P., and Valko, M. Bootstrapped Representation Learning on Graphs. ICLR Workshop, 2021.
[37] Hou, Z., Liu, X., Cen, Y., Dong, Y., Yang, H., Wang, C., and Tang, J. GraphMAE: Self-Supervised Masked Graph Autoencoders. KDD, 2022.
[38] Hu, W., Fey, M., Zitnik, M., Dong, Y., Ren, H., Liu, B., Catasta, M., and Leskovec, J. Open Graph Benchmark: Datasets for Machine Learning on Graphs. NeurIPS, 2020.
[39] Dwivedi, V. P., et al. Benchmarking Graph Neural Networks. JMLR, 2023.