Quant Trading / Alpha Research / Portfolio / Execution / Risk
量化交易导论:写给入门学习者的一堂高密度系统课
如果你第一次认真学习量化交易,最容易犯的错误不是“不懂模型”,而是把量化想得过窄。量化交易既不是几条技术指标公式,也不是把行情喂给机器学习模型后自动出答案,更不是随便跑出一条收益曲线就可以拿去实盘。它更接近一门融合金融、统计、市场微观结构、软件工程、风险控制和实验科学的方法学课程。 本文的写法刻意更像导论课本而不是摘要:我会尽量把常见概念、策略家族、研究方法、案例、陷阱、反例、工程边界和学习路径都摊开,尽可能多地把真正重要的信息一次性交给初学者。[1][3][14][20]
一、先校正直觉:量化交易到底是什么,不是什么
许多入门者一接触“量化交易”四个字,脑子里会立刻冒出三种图景:一个是“均线金叉死叉自动买卖”,一个是“用 AI 预测明天涨跌”,另一个是“只要代码写对了就能持续挣钱”。这三种图景都抓住了局部,但都不等于量化交易本身。
更准确地说,量化交易是把交易问题拆成一系列可被数据、规则和实验约束的子问题:市场里是否存在某种可利用的统计偏差;这种偏差能否被稳定地编码成信号;信号能否转成可承载的仓位;仓位是否能在真实市场中以合理成本实现;收益是否能在风险、容量、制度变化和系统故障下存活。只要其中任何一环站不住脚,所谓“量化策略”就只是研究笔记,而不是可交易系统。
量化不是单个指标
MACD、RSI、布林带、成交量突破,这些都只是候选特征或规则。量化体系关注的是它们在什么市场、什么频率、什么交易成本和什么组合约束下还是否有效。
量化不是单个预测模型
就算你有一个模型能预测未来收益方向,也还要解决排名、资金分配、成交、滑点、回撤、异常行情、停牌和制度约束这些更硬的问题。
量化不是自动赚钱机器
市场是竞争性的。只要某种简单边际被大量人看见、复制、放大,它就会衰减、拥挤,甚至反过来形成风险源。
量化是一种实验纪律
它逼迫你把“我觉得这个会涨”改写为“我定义的这类样本,在这类约束和成本条件下,未来某个 horizon 的条件分布有何偏移”。
二、如果把量化交易看成一门课,它至少有哪几章
真正的量化学习不应该只学“策略”,因为策略只是中间层。更完整的课程顺序应该是:先理解市场和交易对象,再理解数据与实验,再理解信号与组合,最后才进入执行、风险和生产系统。
| 层次 | 核心问题 | 初学者常见误区 |
|---|---|---|
| 市场层 | 谁在交易,为什么交易,价格如何形成,流动性和制度如何影响策略 | 把任何市场都当成同一个问题,不区分股票、期货、期权、做市和高频 |
| 数据层 | 哪些数据可获得,时间戳是否可信,口径是否一致,数据是否泄漏未来 | 只要能抓到数据就当成可研究数据,不关心复权、停牌、公告时点和缺失值 |
| 信号层 | 什么特征有可能对应某种风险溢价或行为偏差 | 把样本内拟合强度直接等同于真实 alpha |
| 组合层 | 如何把很多局部判断组合成可承受的整体风险暴露 | 默认等权买入就可以,不控制行业、风格、相关性和换手 |
| 执行层 | 如何把目标仓位尽可能低成本地变成真实成交 | 假设任何时候都能按理想价格成交 |
| 风控层 | 如何防止策略在极端环境、拥挤交易、系统故障和制度变化中自毁 | 把风控理解成“亏多了就止损” |
| 工程层 | 如何让研究、回测、仿真、实盘和监控在同一个可复现框架下协同 | Notebook 里跑通一次就认为系统已经完成 |
三、市场里到底有哪些玩家,他们如何共同塑造了量化问题
想理解量化,先要理解市场并不是一个“自然现象”,而是由不同动机的参与者共同构成的博弈场。价格不是凭空波动,它往往是信息、资金约束、流动性需求、风险偏好和制度规则共同作用后的结果。
长期配置者
例如养老资金、保险资金、主权基金、部分公募和价值投资者。他们关注长期风险收益比和资金配置,需要流动性,但不一定追逐短期微小价差。
信息型交易者
他们认为自己掌握更快或更深的信息,比如财报解读、产业链跟踪、订单流识别、新闻事件理解。很多 alpha 都来自和这类交易者争夺定价先机。
流动性需求者
他们不一定在“追求最优价格”,可能只是因为申赎、对冲、被动跟踪、保证金、监管或再平衡需要交易。很多短期失衡都来自这类非信息动机。
做市商与套利者
他们靠价差、库存管理和市场间错价生存,同时也在持续修复显性的价格偏离。这决定了很多简单 alpha 不会长期裸露在市场里。
这个视角很重要,因为它解释了“为什么策略会存在”。价值、动量、反转、期限结构、波动率风险溢价、事件漂移,这些现象之所以可能存在,往往不是市场失灵得完全不会动,而是不同玩家的目标函数不同、信息处理速度不同、风险承受能力不同、资金来源不同,导致价格不会瞬间到达“理论正确点”。
四、市场微观结构:很多收益不是来自“预测”,而来自“交易机制理解”
入门者常常把市场想成一条不断变动的价格序列,于是研究焦点自然落到“下一根 K 线涨还是跌”。但真实市场比这复杂得多。订单如何进入撮合系统、限价单和市价单如何交互、盘口深度如何变化、队列位置如何影响成交、涨跌停或熔断如何改变行为,这些都属于市场微观结构问题。[12][20]
| 微观结构概念 | 直观含义 | 量化上的实际意义 |
|---|---|---|
| 买一卖一价差 | 你立刻买和立刻卖之间的天然损耗 | 频率越高,这个损耗越像税;很多小 alpha 根本跨不过它 |
| 盘口深度 | 当前价位附近挂着多少量 | 决定你的大单是否会推着价格跑,直接影响冲击成本 |
| 队列位置 | 同一个价格上你排在前面还是后面 | 高频和做市里,这可能决定成交率和 adverse selection 风险 |
| 撤单率 | 表面流动性有多少是真想成交,多少是随时会消失 | 很多看似很厚的盘口在压力下会瞬间抽空 |
| 交易制度约束 | T+1、涨跌停、做空限制、最小变动价位 | 这些规则会改变策略的可行性、持仓节奏和风险暴露 |
微观结构最典型的教学反例是:一个策略在分钟线回测里看起来稳定赚钱,但它的每次利润只有几个最小价位,而回测又默认按 bar close 成交。真实情况下,只要加入买卖价差、部分成交和冲击,这类策略很可能立刻从高胜率变成负期望。
五、先按市场和频率分类:你研究的根本不是同一个世界
所有量化课程里,最值得反复强调的一句话是:不同市场、不同资产、不同频率,本质上不是同一个问题。你不能把 A 股日频横截面选股的方法不加修改地搬去做商品期货,也不能把高频做市的思路直接挪到周频资产配置上。
| 场景 | 核心任务 | 常见信息来源 | 主要约束 |
|---|---|---|---|
| A 股日频选股 | 在股票池中做横截面排序和组合优化 | 价格、成交量、财务因子、事件、资金流 | 停牌、涨跌停、退市、行业暴露、换手与容量 |
| 商品期货 CTA | 在时序上捕捉趋势、反转或期限结构机会 | 价格、波动率、持仓量、跨期价差、宏观变量 | 杠杆、展期、跳空、政策冲击、保证金管理 |
| 统计套利 | 利用资产间短期相对错配做收敛交易 | 高频价格、残差序列、篮子联动、盘口特征 | 成交成本、同步性、相关性坍塌、短期冲击 |
| 期权波动率交易 | 交易隐含波动率、偏度、期限结构和 Greeks | 期权链、波动率曲面、事件日历、对冲成本 | 尾部风险、保证金、跳跃风险、估值口径 |
| 高频做市 | 报价、库存管理、队列管理、短期预测 | 订单簿、逐笔成交、撤单流、撮合反馈 | 延迟、系统稳定性、adverse selection、库存风险 |
六、策略家族之一:股票因子与横截面选股
股票因子是大多数人接触量化的第一站,因为它相对容易上手:你有一堆股票、一些日线和财务数据,然后试图回答“哪些股票更值得持有”。但越是看起来直观,越容易被误解成简单排名游戏。
横截面选股的典型流程是:定义股票池,构造若干特征,对每个截面上的股票打分或排序,再用某种组合规则持有 top N 或按分数加权持仓。这里面最重要的问题并不是“因子名字是否高级”,而是因子是否真的在可交易样本中、在合理成本下、在中性约束下、在较长样本外窗口中还成立。[14][19]
价值因子
例如低市盈率、低市净率、低 EV/EBITDA。背后的故事是“被低估资产最终会向合理估值回归”。但要警惕价值陷阱,例如便宜只是因为资产质量恶化。
动量因子
过去表现较强的股票在一段时间内继续较强。背后可能是信息扩散不完全、机构调仓惯性和行为偏差。但动量通常伴随较大的风格拥挤和 regime 风险。
质量因子
例如高 ROE、稳定利润、低应计、高现金流质量。它关注公司经营质量,往往比纯价值更稳,但也可能在高估值阶段面临回归压力。
低波与防御因子
有些市场里,低波资产长期表现并不差,甚至风险调整后更优。它挑战了“高风险必然高收益”的简单直觉。
这也是为什么成熟的股票量化几乎都会做行业中性、规模中性或风格暴露控制。否则你以为自己在做“选股”,其实可能只是重仓了某个在样本期恰好占优的行业或风格。
七、策略家族之二:期货 CTA 与趋势跟随
CTA 是另一个极其经典的量化入口。它通常交易期货等可多空、可杠杆、可跨品种的资产,研究重点是时间序列,而不是同一时点股票之间的横向比较。最典型的 CTA 叙事是趋势跟随:价格一旦形成趋势,往往会持续一段时间,策略要做的是在趋势早期或中期进入,并在趋势反转前尽量晚一点离开。[1][2]
但“趋势跟随”不是一句均线金叉就能概括。真正的 CTA 研究要处理多个层次:用什么规则定义趋势;什么品种更适合趋势策略;趋势识别周期多长;杠杆如何动态调整;单品种止损如何和组合层风险预算协同;遇到震荡区间怎么办;跨品种相关性突然升高时如何控制整体回撤。
突破类策略
例如价格突破过去 N 日高点后做多,跌破低点后做空。它简单直观,但假突破很多,成本和震荡会反复侵蚀收益。
均线类趋势策略
例如短均线上穿长均线做多,反之做空。它本质上是一个平滑化后的趋势识别器,而不是神奇法则。
波动率目标化
很多 CTA 并不是固定手数交易,而是根据近期波动率动态调仓,使各品种在风险上更均衡。
跨品种分散化
CTA 的巨大优点在于可以跨资产、跨国家、跨期限做组合,从而降低单一市场失灵时的系统性打击。
八、策略家族之三:均值回复、统计套利与相对价值
如果趋势跟随押注“偏离会继续扩展”,那均值回复和统计套利押注的就是“偏离终将收敛”。这类策略的研究对象通常不是单个资产是否上涨,而是两个或一组资产之间的相对关系是否短期失衡。
经典案例包括:同类股票之间的价差偏离、ETF 与其成分篮子的错价、跨期合约价差、两个高度相关品种的残差回归、市场开盘或收盘前后的短期流动性扰动。它们的共同点是:你赌的不是绝对方向,而是某种结构关系会回到更正常的状态。
| 策略类型 | 核心假设 | 最危险的失败方式 |
|---|---|---|
| 配对交易 | 两资产历史上强相关,短期偏离后会重新靠拢 | 相关关系结构性破裂,或某一方基本面永久改变 |
| ETF/篮子套利 | ETF 与成分股价值之间会回归合理关系 | 同步性问题、成分更新、交易时点错配、成交成本过高 |
| 跨期价差 | 期限结构有相对稳定的经济逻辑 | 库存、政策、交割或供需冲击打破历史结构 |
| 短期流动性回复 | 订单流冲击造成的极短期失衡会被修复 | 你以为是流动性偏离,实际上是新信息定价 |
九、策略家族之四:期权、波动率与非线性风险
很多入门者只学现货和 K 线,于是天然把“交易”理解成方向判断。但期权世界会强迫你升级思维,因为你交易的不只是方向,还有波动、尾部、时间衰减、曲面形状和对冲误差。到了这里,量化交易开始明显像一门更高维的风险工程学。
一个看涨期权的盈亏不只和标的方向有关,还和隐含波动率变化、剩余到期时间、对冲频率、跳空风险、交易成本、vega 和 gamma 暴露有关。你可能方向判断对了,但波动率崩掉,仍然亏钱;也可能方向判断一般,但靠卖波动率和时间价值赚钱。
波动率风险溢价
在许多市场中,长期看隐含波动率会高于实现波动率,因为市场参与者愿意为保险支付溢价。很多卖波策略就建立在这上面,但尾部风险巨大。
期限结构交易
不同到期日的期权反映了市场对不同时间尺度风险的定价。期限结构异常可能产生相对价值机会。
偏度与尾部定价
市场对向下跳跃的恐惧通常会让 OTM put 较贵,这使 skew 成为重要研究对象。
动态对冲误差
理论上 delta hedging 可以中和部分方向暴露,但真实对冲有离散时间、成本和跳空,因此模型收益与实盘收益往往差别很大。
十、策略家族之五:做市与高频,真正接近“工业系统”的量化
当人们提起高频,常常想到“速度快、赚钱多、门槛高”。这几个判断都不算错,但太表面。高频和做市真正困难的地方在于:你不只是研究价格,而是在和市场的基础设施层交手。你研究的对象包括订单簿、队列、撮合反馈、撤单、库存暴露和信息不对称。
做市策略最朴素的样子是同时挂买单和卖单,赚取买卖价差。但现实不会让你轻松赚到这个差价,因为对手方往往在信息更有利时才来吃你的单。也就是说,你的最大敌人是 adverse selection:每当别人愿意主动打你的单时,可能恰恰说明市场马上要向不利方向移动。
所以高频量化真正拼的不只是预测能力,更是系统稳定性、低延迟、库存控制、报价逻辑、撤单逻辑和风险熔断。它对工程的依赖远高于多数中低频策略。
十一、数据工程:量化研究最枯燥,却最容易一票否决一切
绝大多数失败策略,在一开始看上去都像是“模型不够强”;而很多真正的问题,其实是数据工程。数据工程的意义不是“把数据抓下来”,而是保证你研究用的数据在时间顺序、字段定义、复权口径、缺失值处理、样本边界和版本控制上都可信。[3][5][15][19]
| 数据问题 | 看起来像什么 | 真实后果 |
|---|---|---|
| 复权口径混乱 | 价格序列很平滑、收益很合理 | 收益计算偏差,趋势和波动率特征被扭曲 |
| 财报时点错误 | 基本面因子很强 | 你其实提前看到了未来,回测被严重污染 |
| 停牌退市处理缺失 | 策略历史回撤不大 | 失败样本被静默删除,幸存者偏差上升 |
| 分钟数据时间不同步 | 跨品种联动信号很漂亮 | 所谓先行预测只是时间错位造成的伪 alpha |
| 字段语义理解错误 | 因子定义非常新颖 | 你研究的是错误对象,结论没有金融意义 |
对入门者来说,最重要的习惯不是先追求数据量,而是先建立数据卫生:每个字段从哪里来、什么时候可得、用什么口径、哪些样本缺失、缺失为什么发生、同一个实验是否可重复重放。没有这些,后续所有精巧建模都站在松土上。
十二、信号构造:从“感觉这个有用”到“定义清楚这个为什么可能有用”
信号构造是量化学习中最容易让人上瘾的环节,因为它最像“发明策略”。但成熟研究不会把信号当成创意比赛,而是当成假设检验。一个信号之所以值得研究,不是因为它数学形式复杂,而是因为你能说清它可能对应哪种风险补偿、行为偏差、流动性失衡、制度扭曲或信息扩散机制。
例如,动量因子背后的逻辑可能是信息逐步扩散、机构调仓惯性和行为偏差;价值因子可能对应市场对坏消息过度反应后的估值修复;短期反转可能对应流动性冲击后的技术性回归;低波因子可能和杠杆约束、彩票偏好或机构配置偏好有关。你不一定要对每个信号都有完美因果证明,但至少不能完全没有经济叙事。
单变量规则
例如 N 日收益、换手率、波动率、价量背离。优点是透明、易解释、易复现;缺点是表达能力有限。
多因子组合
例如把价值、质量、动量和流动性因子做标准化后加权。优点是稳健,缺点是归因可能复杂化。
机器学习特征映射
通过树模型、线性模型、神经网络学习特征与未来收益的关系。优点是能处理高维非线性,缺点是更容易发生过拟合和数据泄漏。
另类数据信号
如新闻、舆情、卫星、招聘、物流、文本摘要、图结构关系。潜在信息丰富,但清洗、对齐和验证难度更高。
十三、机器学习在量化里的真正位置:不是替代金融逻辑,而是增强表示能力
很多人学量化会很快问一个问题:“那我是不是应该直接上 XGBoost、LSTM、Transformer、GNN、强化学习?”这类问题本身就暴露了顺序错了。正确顺序不是先选模型,再找场景;而是先明白自己要解决的是哪类预测或决策问题,再看哪种模型值得引入。
机器学习在量化里的强项主要有三类。第一,处理高维特征和非线性组合;第二,在异构数据之间做表示学习;第三,在复杂场景中做模式分类、风险预警或排序建模。它最不应该承担的角色,是在没有严格数据卫生和没有基本金融逻辑的前提下,替你“神奇发现规律”。[3][4][10][17]
对文本、关系网络和多模态数据而言,GNN、大模型与更复杂的表征方法当然有价值;但它们的价值主要体现在“扩展可表达的信息空间”,而不是自动免除回测、归因、成本建模和风险控制。复杂模型永远无法替代实验纪律。
十四、组合构建:为什么“信号很强”并不自动等于“组合很好”
在入门阶段,很多人默认有了分数就直接买 top N,这当然可以作为第一个 baseline,但这距离真正的组合构建还很远。真实的组合层关注的是:如何在给定的约束条件下,把很多局部正确的判断转成一个整体上可承受、可解释、可交易的风险暴露。
| 组合决策 | 如果不处理会怎样 | 典型处理方式 |
|---|---|---|
| 单票权重限制 | 个别股票意外事件会主导组合波动 | 最大持仓比例、流动性加权、风险预算 |
| 行业暴露控制 | 看似选股,实则重仓某个行业 beta | 行业中性、行业偏离约束、风险模型 |
| 风格暴露控制 | 策略收益高度依赖某个风格阶段 | 市值/波动率/价值/成长等风格中性化 |
| 换手约束 | 理论 alpha 被交易成本吃掉 | 再平衡阈值、缓冲带、目标仓位平滑 |
| 容量控制 | 资金一放大,成交成本和冲击急剧恶化 | 按 ADV 约束、参与率上限、分批执行 |
十五、回测:它不是证明书,而是严格受假设约束的模拟实验
初学量化时,最危险的时刻不是你回测很差,而是你第一次回测很好。因为这会迅速制造一种错觉:自己已经找到了有效规律。可回测能给出的最多只是“在这套数据、这套样本、这套规则、这套成本假设下,策略表现如何”。它绝不是未来收益保证书。[3][7][11]
幸存者偏差
只用今天仍然存在的股票池做历史回测,会自然删除大量失败公司,结果几乎一定偏乐观。
前视偏差
提前使用未来才知道的信息,是最致命也最常见的污染源之一。
数据泄漏
机器学习里尤其危险,例如用全样本标准化、先整体排序再切 train/test、滚动标签和特征窗口交叉污染。
多重检验与参数挖掘
你试够多的窗口、参数和信号,总会有一些样本内结果漂亮得过分,但那往往只是噪声被搜索出来了。
好的回测应该尽量接近实验科学的精神:样本划分清楚、规则固定、成本透明、约束透明、结果可复现、失败样本保留、样本外验证存在。更进一步,你需要滚动前推、纸面交易、仿真交易和小规模真实资金验证。
十六、交易成本:为什么很多回测里存在的利润,现实里根本拿不到
很多入门文章会说“记得加手续费和滑点”,这句话是对的,但太轻描淡写。交易成本不是一个小修正项,而是许多策略生死线所在。尤其对高换手、低边际收益、低流动性资产和大资金策略而言,成本决定的不是收益高低,而是策略是否还存在。
| 成本类型 | 直观理解 | 对哪类策略最致命 |
|---|---|---|
| 显式手续费 | 佣金、税费、交易所费用 | 所有高换手策略 |
| 买卖价差 | 立刻买和立刻卖的天然损耗 | 高频、日内、短周期策略 |
| 市场冲击 | 你自己的单子把价格推坏 | 大资金、中小盘股票、低流动性合约 |
| 机会成本 | 目标单没有成交,错过本该有的仓位 | 盘口薄、执行慢、限制多的策略 |
| 融资借券成本 | 做空和杠杆不是免费的 | 多空对冲、卖空、杠杆策略 |
十七、执行:从目标仓位到真实成交,中间隔着一个现实世界
在研究端,你常常只看到“今天应该持有 3% 的某股票”。但真实系统必须继续回答:什么时候开始买;买多快;是市价、限价还是分批;如果盘口突然抽走怎么办;如果只成交一半怎么办;如果市场突然大跳怎么办;如果风险阈值触发是否暂停。执行层不是简单的下单接口,而是把研究意图翻译成可承受的市场行为。
常见执行框架包括 TWAP、VWAP、POV、Implementation Shortfall 和更复杂的智能切片。它们背后的区别本质是:你更在意均价,还是更在意速度;更怕冲击,还是更怕没成交;更怕暴露意图,还是更怕时间拖长后行情继续跑远。[13]
十八、风险管理:不是亏多了才想起的刹车,而是系统设计的一部分
很多初学者把风险管理等同于止损。止损当然重要,但风险管理远不止于此。你真正要管理的是多种不同来源的风险:方向风险、杠杆风险、波动率上升、相关性聚集、流动性枯竭、制度变化、模型失效、数据中断、系统故障和操作错误。[1][2][20]
市场风险
包括方向、波动率、跳空、相关性坍塌和尾部场景。组合层风险预算和波动率目标化是常见基础做法。
流动性风险
策略在平时能进能出,不代表极端行情里也能。很多回撤之所以扩大,是因为最想卖的时候卖不掉。
模型风险
历史规律可能改变,特征语义可能漂移,相关结构可能失效。模型风险本质上是“你对世界的简化是否突然不再适用”。
操作与系统风险
包括数据断流、接口故障、重复下单、参数误配、权限错误和监控缺失。很多真实事故不是市场把人打败,而是系统自己先崩了。
十九、从研究到实盘:为什么 Notebook 不是交易系统
研究端和生产端之间存在一条非常硬的边界。研究端强调探索效率,允许快速试验、可视化分析和多次迭代;生产端强调可复现、可监控、可审计、可回放、可止损、可容灾。很多量化项目的问题不是想法不够好,而是把研究脚本误当成生产系统。
| 维度 | 研究代码 | 生产系统 |
|---|---|---|
| 目标 | 快速发现假设是否值得继续研究 | 稳定、可控、可追责地运行真实资金 |
| 容错要求 | 可以失败、可重跑 | 失败必须可告警、可降级、可熔断 |
| 数据处理 | 允许手工修补和实验性加工 | 必须版本化、可回放、可审计 |
| 参数管理 | 可以在 Notebook 中临时改动 | 必须有配置管理、发布记录和变更审计 |
| 结果解释 | 可以探索性阅读图表 | 必须自动记录、监控、归因并支持异常定位 |
一个成熟量化团队通常会把流程拆成研究、回测、仿真、纸面交易、小规模实盘、扩大规模几个阶段,而不会用“一条曲线好看”直接跨到大资金上线。真正的系统能力,常常体现在这些 boring 但必要的环节:版本管理、实验记录、报警、回放、权限、双数据源校验、订单审计、异常熔断。[5][6][7][9]
二十、AI、LLM、多智能体和强化学习在量化中的真实位置
这一部分很重要,因为现在大量初学者是从 AI 反过来接触量化的。他们天然会问:“既然大模型已经能读财报、读新闻、写代码、总结事件,那是不是很快就能替代传统量化研究?”答案是:它当然能显著增强研究效率,但它并不会自动消除金融数据的非平稳、噪声、反馈效应、成本和容量问题。
更稳妥的看法是:AI 是量化研究与工程的强工具层,而不是市场规律的担保层。它适合做文本提取、事件归档、研究自动化、财报摘要、代码生成、实验编排、知识检索、监控解释和资料整合;但它不能替代严肃的数据卫生、回测纪律、归因分析、风险管理和实盘执行。[10][16][17][18]
二十一、对入门学习者最现实的一条学习路线
如果你真的想把量化交易学到可以独立研究的程度,我建议不要从“最炫的模型”开始,而要从“最完整的闭环”开始。下面是一条更现实、更可落地、也更不容易自欺的学习路径。
- 先学市场基础:理解股票、期货、期权、做多做空、杠杆、撮合、涨跌停、保证金、复权、分红、展期这些最基本的市场语义。
- 再学数据处理:把一份行情数据从原始抓取到可回测表结构完整走通,明确每个字段的含义和时间可得性。
- 再学最朴素的研究范式:做一个简单横截面因子策略,或一个最基础的趋势 CTA,强迫自己加入成本和样本外检验。
- 再学组合和风险:理解为什么 top N 不是终点,为什么换手和容量会吃掉理论收益。
- 再学执行和生产:至少理解回测、仿真、纸面交易和实盘系统之间有什么本质差别。
- 最后再引入更复杂的方法:树模型、深度学习、GNN、RL、多智能体、另类数据、自动化研究流程。
二十二、最后的收束:量化交易真正稀缺的不是“神奇策略”,而是诚实的方法论
量化交易之所以值得学,不是因为它承诺轻松赚钱,而是因为它强迫你把交易里的每个模糊判断都摊开:你为什么这么认为;这个信号何时可得;它在什么样本中成立;加入成本后还剩多少;它承担了哪些风险;容量多大;如果失效你怎么发现;如果系统出错你怎么停机。它用工程纪律和统计纪律,把交易这件本来极其容易被叙事污染的事情,尽量变成一套可被反复检查的流程。
读到这里,如果你还记得最重要的一句话,那应该是:量化交易不是把主观判断藏进代码里,而是把主观判断从模糊状态拽出来,逼它接受数据、规则、成本、约束和时间的共同审判。最后留下来的,也许不是惊天动地的暴利,而是少量但更真实、更可复现、更可解释的边际优势。
参考资料
[1] Ernest P. Chan. Quantitative Trading and related research notes.
[2] Ernest P. Chan. Algorithmic Trading: Winning Strategies and Their Rationale.
[3] Marcos Lopez de Prado. Advances in Financial Machine Learning.
[4] Marcos Lopez de Prado. Machine Learning for Asset Managers.
[5] Microsoft Research. Qlib GitHub Repository.
[6] Qlib Documentation.
[7] QuantConnect. LEAN Algorithm Engine Documentation.
[8] Backtrader Documentation.
[9] vn.py. Event-driven Trading Framework.
[10] AI4Finance Foundation. FinRL.
[11] Zipline Reloaded. Backtesting Library.
[12] Avellaneda, M., Stoikov, S. High-frequency trading in a limit order book.
[13] Almgren, R., Chriss, N. Optimal Execution of Portfolio Transactions.
[14] Grinold, R., Kahn, R. Active Portfolio Management.
[15] Vortezwohl. efinance 深度调研.
[16] Vortezwohl. TradingAgents 多智能体交易框架.
[17] Vortezwohl. GNN 量化应用与图神经网络理论综述.
[18] Vortezwohl. 基于 stable_baselines3 和 gymnasium 进行强化学习实践.
[19] Yang, X., et al. Qlib: An AI-oriented Quantitative Investment Platform.
[20] Larry Harris. Trading and Exchanges: Market Microstructure for Practitioners.