Python量化交易进阶讲堂-扒一扒量化回测中常见的陷阱

4,015 阅读8分钟

欢迎大家订阅《Python实战-构建基于股票的量化交易系统》小册子,小册子会陆续推出与小册内容相关的专栏文章,对涉及到的知识点进行更全面的扩展介绍,并且会有选择地收录至小册中,更便于广大读者查阅知识点。本篇专栏为小册子内容的加推篇!!!

前言

目前量化交易正在不断地快速发展,量化交易的可回测性是区别于主观投资的重要特征。量化回测是指基于历史行情数据将交易策略产生历史交易,从而评估交易策略的历史表现。

网上出现了越来越多的分析软件、交易策略,咋一看回测的效果都非常漂亮,获利百分之几百的收益十分普遍。但是这个收益业绩却有可能是高估的,不明真相的朋友购买后自己使用时才发现现实是残酷的。

这里建议大家在亲眼看到策略代码之前,都要保持半信半疑的谨慎态度,因为策略的收益是可以人为做出来的。真正赚钱的策略一定是由自己开发并建立起自信的策略,这也是笔者为什么要介绍大家制作量化交易策略的方法,授人鱼不如授人以渔嘛。

对于个人编写的交易策略往往也会存在,回测效果非常完美,实盘却可能表现不佳。

为了避免在回测过程中高估策略的业绩表现,我们需要考虑如何编写回测程序以及如何构造交易策略。

本次小册的加推篇我们来一起扒一扒量化交易中常见回测陷阱。

前视偏差

前视偏差是指在策略回测阶段采取了未来的信息来决定之前的交易,而这些信息在实盘操作中是无法获知的。这里我们提供几个典型的案例来介绍下:

  • 买入策略1:“当天的收盘价突破前一天的最高价,则利用当天开盘价买入股票”,很明显,在开盘价成交几乎是不可能的事情了。

  • 买入策略2:“当日K线突破M20均线的时候以当前开盘价买入股票”,很明显,在开盘的时候是无法预知今日K线最终是不是能够突破M20均线。

前视偏差是我们要极力避免的错误。如何避免前视偏差?可以使用“滞后”的历史数据来计算策略信号。滞后的数据意味着,在涉及到移动平均值、最高价、最低价、成交量等指标时,只使用“上一”交易日的收盘数据。比如以下代码:

""" 收盘价超过N1最高价 买入股票持有"""
buy_index = stock_df[stock_df.Close > stock_df.N1_High.shift(1)].index 
stock_df.loc[buy_index,'signal'] = 1

""" 收盘价超过N2最低价 卖出股票持有"""
sell_index = stock_df[stock_df.Close < stock_df.N2_Low.shift(1)].index 
stock_df.loc[sell_index,'signal'] = 0

shift(1)是在index不变的情况下对序列的值向后移动一个单位。目的是获取昨天为止的最高/最低价格。这样就能使用“滞后”的历史数据来计算策略信号。

偷价

如果一个交易策略要求你利用信号触发时的价格进行交易,那么这个交易策略就存在偷价的情况。

很多人会低估偷价的危害性,事实上,固定点数的偷价相当于在原本的资金曲线上叠加了一条斜率为正的直线(在每次交易都是固定手数的情况下)。

假设一年250个交易日,每个交易日均对一只长期保持10元的股票执行一次100股的买卖,每次买卖都偷价1个tick(tick设置为1个点,即0.1元),那么全年下来可以多获利500*0.1*100 = 5000元,这甚至超越了你的本金。

然而,现实的情况是不但无法低于一个tick的价格成交,更多的反而是高于一个甚至多个tick的价格成交。原因很简单,大多数趋势交易者都会在某个关键点位建仓,竞争导致价格在这些关键位置形成剧烈波动,并且这种波动通常是对程序化交易不利的波动。所以在构建一个频率较高的交易系统的时候,更多是要考虑和解决滑点问题。

手续费

手续费相当于在原本的资金曲线上叠加了一条斜率为负的直线(在每次交易都是固定手数的情况下)。策略进行测试时,如果不计入手续费,资金曲线可能会产生巨大差异,甚至不计手续费时盈利的策略,在计入手续费后可能产生亏损。 当前股票交易费用由三部分组成:佣金、印花税、过户费(仅上海股票收取)

  • 印花税:成交金额的1‰。2008年9月19日至今由向双边征收改为向出让方单边征收(卖的时候才收取)。受让者不再缴纳印花税。投资者在买卖成交后支付给财税部门的税收。上海股票及深圳股票均按实际成交金额的千分之一支付,此税收由券商代扣后由交易所统一代缴。债券与基金交易均免交此项税收。

  • 过户费:这是指股票成交后,更换户名所需支付的费用。根据中国登记结算公司的发文《关于调整A股交易过户费收费标准有关事项的通知》,从2015年8月1日起已经更改为上海和深圳都进行收取,此费用按成交金额的0.02‰收取。

  • 交易佣金:最高收费为3‰,最低收费5元。

滑点

滑点是指触发指令的价格和最终成交价格之间的差异,它是难免会发生的情况,通常滑点产生的原因有以下两类:

  • 行情波动剧烈、市场容量不够等情况导致的

  • 网络延迟、交易平台不稳定等情况导致的

滑点是一个合格的交易策略必须充分考虑的因素。如果在一个交易策略中,将滑点数设置为0,即采用现价指令买卖证券其资金曲线就会优于同一个滑点数不为0的策略。通常我们要在最极端的条件下去构建和测试系统,一般系统都是高于2个tick的滑点来构建的。

过度优化

过度优化是指为了迁就历史数据的噪音而将一个策略的参数或者规则反复优化到最佳的情况。

显然,即便是一个不能赚钱的策略,如果用暴力枚举法优化选取参数,也能够有个别参数能够使策略盈利,但是根据过度优化得到的最佳参数来制定策略和控制风险,在实盘中是难以盈利的。

避免过度优化的有效办法有以下几个:

  • 一般而言,策略的规则越多,模型的参数越多,就越可能出现过度拟合问题。因此采用的参数越少,可以优化的规则越少,自然过度优化的情况就能够得到很好的避免,并且,越少参数构建的策略,往往越稳健。

  • 合理选择样本。有些策略覆盖的股票品种太少,时间周期太短,不能充分展现策略效果。比如策略只用于个别品种上,或者仅仅覆盖了一种类型的行情。这些策略在遇到截然不同的市场情况时,表现可能会大相径庭。

  • 进行样本外测试。构建策略模型时,将历史数据根据时间先后分为两段。参数优化和定性选择使用前一段数据(训练集),策略模型的测试使用后一段数据(测试集)。

总结

以上介绍的这些策略陷阱都有一个共性,就是在回测时表现地非常优异,但与实盘并不相符,很多交易者在策略的开发中不自觉地会犯下这类错误,如果将回测结果作为自己预期收益和风险管理的依据,后果不堪设想,大家千万要引以为戒。

更多的量化交易内容欢迎大家订阅小册阅读!!同时也欢迎大家关注我的微信公众号【元宵大师带你用Python量化交易】了解更多Python量化交易相关内容