Backtrader 数据篇
本系列是使用Backtrader在量化领域的学习与实践,着重介绍Backtrader的使用。Backtrader 中几个核心组件:
- Cerebro:BackTrader的基石,所有的操作都是基于Cerebro的。
- Feed:将运行策略所需的基础数据加载到Cerebro中,一般为K线数据。
- Indicator:BackTader自带的指标,并集成了talib中的指标。我们也可以选择继承一个Indicator实现自己的指标。
- Strategy:交易策略。这里是整个过程中最复杂的部分,需要我们计算买入/卖出信号。
- Analyzer:分析器,以图形和风险收益等指标对交易策略的回测结果进行分析评价。
- Order:订单,记录了与当前订单相关的所有数据。
- Trader:交易,记录了与当前交易相关的所有数据。
- Position:持仓,记录了与当前持仓相关的所有数据。
- Broker:可以理解成经纪人,整个策略的初始资金、交易费率、滑点等参数需要通过Broker进行设置。
- Observer:观察者,对数据进行监控观察,比如资金曲线等等。
- Plotting:可视化组件
本次介绍Backtrader中DataFeeds模块,DataFeeds模块是Backtrader核心模块之一,其提供多数据加载途径,同时提供数据的前期处理。
在使用Backtrader时,结合量化策略编写过程通常会考虑:
- backtrader如何加载数据?可以加载哪些数据?
- 编写策略时,如何访问标的数据(行、列、单元)?
- backtrader是否可以自定义数据内容?
…
import backtrader as bt
import pandas as pd
import numpy as np
import datetimedaily_price = pd.read_csv("./data/daily_price.csv", parse_dates=['datetime'])# 筛选 600466.SH 和 603228.SH 2只股票的数据集
data1 = daily_price.query(f"sec_code=='600466.SH'").set_index('datetime').drop(columns=['sec_code'])
data2 = daily_price.query(f"sec_code=='603228.SH'").set_index('datetime').drop(columns=['sec_code'])
0 Backtrader中的数据结构
在Backtrader,可将单个或多个标的数据导入到“数据表”中,数据可通过self.datas(插入顺序)、self.dataX方式进行获取。
- self.data 和 self.data0 指向第一个元素
- self.dataX 指向数组中索引为 X 的元素
class TestStrategy(bt.Strategy):def __init__(self):print('--- self.datas ---')print(self.datas)print('--- self.data ---')print(self.data._name,self.data)print('--- self.data0 ---')print(self.data0._name, self.data0)print('--- self.datas[0] ---')print(self.datas[0]._name, self.datas[0])print('--- self.datas[1] ---')print(self.datas[1]._name, self.datas[1])print('--- self.datas[-1] ---')print(self.datas[-1]._name, self.datas[-1])def next(self):pass#print('---next: 索引为6的线 ---')#print(bt.num2date(self.datas[0].lines[6][0]))#print(bt.num2date(self.datas[0].lines[6][0]))cerebro = bt.Cerebro()
st_date = datetime.datetime(2019,1,2)
ed_date = datetime.datetime(2021,1,28)
datafeed1 = bt.feeds.PandasData(dataname=data1,fromdate=st_date,todate = ed_date)
cerebro.adddata(data=datafeed1,name='600466.SH')datafeed2 = bt.feeds.PandasData(dataname=data2,fromdate=st_date,todate=ed_date)
cerebro.adddata(data=datafeed2,name='603228.SH')cerebro.addstrategy(TestStrategy)
result = cerebro.run()
1 如何添加数据源
Backtrader 支持导入各式各样的数据:
- 第三方网站加载数据(Yahoo、VisualChart、Sierra Chart、Interactive Brokers 盈透、OANDA、Quandl)
- CSV 文件
- Pandas DataFrame
- InfluxDB、MT4CSV 等
最基础或最常见的就是导入 CSV 和导入 DataFrame了。
默认的导入方式: Backtrader 中的数据表格默认情况下包含7列,这7列的位置也是固定的,依次为 (‘close’, ‘low’, ‘high’, ‘open’, ‘volume’, ‘openinterest’, ‘datetime’)
导入的数据表格必须包含这 7 个指标吗?指标的排列顺序也必须一致吗?
- 当然不是!可以通过 GenericCSVData、PandasData 、PandasDirectData 这 7 个指标在数据源中位于第几列,如果没有这个指标,那就将位置设置为 -1。
data1
open | high | low | close | volume | openinterest | |
---|---|---|---|---|---|---|
datetime | ||||||
2019-01-02 | 33.064891 | 33.496709 | 31.954503 | 32.386321 | 10629352 | 0 |
2019-01-03 | 32.262944 | 32.941515 | 31.399309 | 31.831127 | 8602646 | 0 |
2019-01-04 | 31.399309 | 33.558397 | 31.337621 | 33.496709 | 12768116 | 0 |
2019-01-07 | 33.496709 | 34.360344 | 33.373332 | 33.620085 | 10584321 | 0 |
2019-01-08 | 33.311644 | 34.113591 | 32.694762 | 33.743462 | 10012902 | 0 |
... | ... | ... | ... | ... | ... | ... |
2021-01-22 | 30.245430 | 30.312942 | 29.502796 | 29.772845 | 17184055 | 0 |
2021-01-25 | 29.570309 | 29.570309 | 28.827675 | 28.962699 | 23646174 | 0 |
2021-01-26 | 28.962699 | 29.232748 | 28.692651 | 28.760163 | 9963442 | 0 |
2021-01-27 | 28.760163 | 29.232748 | 28.692651 | 28.895187 | 12929331 | 0 |
2021-01-28 | 28.827675 | 28.827675 | 28.557627 | 28.760163 | 12826007 | 0 |
506 rows × 6 columns
2 如何访问和获取数据
获取 line 数据
Backtrader中,列是“lines”:一列 → 一个指标 → 该指标的时间序列 → 一条线 line
Backtrader中每一个Data Feed对象都含有lines属性。将 lines 属性看作是 line 的集合,所以想要调用具体的某一条线,就通过 lines 属性来调用:
-
- 通过 lines 属性访问。例如xxx.lines, 可简写为xxx.l
-
- 通过 lines 属性中具体“线”访问。 例如:xxx.lines.close, 或写成 xxx.lines_close
-
- “先调用某张数据表格,再调用这张表格中具体的某根 line”的逻辑依次编写代码。 例如xxx.datas[0].lines[6][0]
在Backtrader的lines中,对于 datetime 线:
1、datetime 线中的时间点存的是数字形式的时间,可以通过 bt.num2date() 方法将其转为“xxxx-xx-xx xx:xx:xx”这种形式;
2、对 datetime 线进行索引时,xxx.date(X) 可以直接以“xxxx-xx-xx xx:xx:xx”的形式返回,X 就是索引位置,可以看做是传统 [X] 索引方式的改进版 。
class TestStrategy(bt.Strategy):def __init__(self):print('---打印 self 策略本身的lines ---')print(self.lines.getlinealiases())print('--- 打印 self.datas 第一个数据表格的 lines ---')print(self.datas[0]._name,self.datas[0].lines.getlinealiases())print(self.datas[0]._name,self.datas[0].lines[5][0])print('--- 打印 self.datas 第二个数据表格的 lines ---')print(self.datas[1]._name, self.datas[1].lines.getlinealiases())def next(self):print('---next: 索引为6的线 ---')print(self.datas[0]._name,bt.num2date(self.datas[0].lines[6][0]))print(self.datas[1]._name,bt.num2date(self.datas[1].lines[6][0]))cerebro = bt.Cerebro()
st_date = datetime.datetime(2019,1,2)
ed_date = datetime.datetime(2021,1,28)
datafeed1 = bt.feeds.PandasData(dataname=data1,fromdate=st_date,todate = ed_date)
cerebro.adddata(data=datafeed1,name='600466.SH')datafeed2 = bt.feeds.PandasData(dataname=data2,fromdate=st_date,todate=ed_date)
cerebro.adddata(data=datafeed2,name='603228.SH')cerebro.addstrategy(TestStrategy)
result = cerebro.run()
获取 line 上的数据点
Backtrader 提供了 索引规则 和 切片方法 get() 获取数据节点数据:
- 1、索引规则:索引位置编号结合了时间信息,0 号位置指向当前时间点的数据,-1 号位置指向前一个时间点的数据,然后依次回退 (backwards)-2、-3、-4、-5、…;1 号位置指向下一天的数据,然后依次向前(forwards)2、3、4、…;
-
2、切片方法:get(ago=0, size=1) 函数,其中 ago 对应数据点的索引位置,即从 ago 时间点开始往前取 size 个数据点。默认情况下是取当前最新时点(ago=0)的那一个数据(size=1);
-
3、在编写策略时,上面提到的对数据点的索引切片操作一般在 next() 函数中涉及较多,而 init() 中涉及较少,因为__init__() 中一般是对 一整条 line 进行操作(运算)。
class TestStrategy(bt.Strategy):def __init__(self):self.count = 0 # 用于计算 next 的循环次数# 打印数据集和数据集对应的名称print("------------- init 中的索引位置-------------")print("0 索引:",'datetime',self.data1.lines.datetime.date(0), 'close',self.data1.lines.close[0])print("-1 索引:",'datetime',self.data1.lines.datetime.date(-1),'close', self.data1.lines.close[-1])print("-2 索引",'datetime', self.data1.lines.datetime.date(-2),'close', self.data1.lines.close[-2])print("1 索引:",'datetime',self.data1.lines.datetime.date(1),'close', self.data1.lines.close[1])print("2 索引",'datetime', self.data1.lines.datetime.date(2),'close', self.data1.lines.close[2])print("从 0 开始往前取3天的收盘价:", self.data1.lines.close.get(ago=0, size=3))print("从-1开始往前取3天的收盘价:", self.data1.lines.close.get(ago=-1, size=3))print("从-2开始往前取3天的收盘价:", self.data1.lines.close.get(ago=-2, size=3))print("line的总长度:", self.data1.buflen())def next(self):print(f"------------- next 的第{self.count+1}次循环 --------------")print("当前时点(今日):",'datetime',self.data1.lines.datetime.date(0),'close', self.data1.lines.close[0])print("往前推1天(昨日):",'datetime',self.data1.lines.datetime.date(-1),'close', self.data1.lines.close[-1])print("往前推2天(前日)", 'datetime',self.data1.lines.datetime.date(-2),'close', self.data1.lines.close[-2])print("前日、昨日、今日的收盘价:", self.data1.lines.close.get(ago=0, size=3))print("往后推1天(明日):",'datetime',self.data1.lines.datetime.date(1),'close', self.data1.lines.close[1])print("往后推2天(明后日)", 'datetime',self.data1.lines.datetime.date(2),'close', self.data1.lines.close[2])print("已处理的数据点:", len(self.data1))print("line的总长度:", self.data1.buflen())self.count += 1cerebro = bt.Cerebro()
st_date = datetime.datetime(2019,1,2)
ed_date = datetime.datetime(2021,1,28)
datafeed1 = bt.feeds.PandasData(dataname=data1,fromdate=st_date,todate = ed_date)
cerebro.adddata(data=datafeed1,name='600466.SH')datafeed2 = bt.feeds.PandasData(dataname=data2,fromdate=st_date,todate=ed_date)
cerebro.adddata(data=datafeed2,name='603228.SH')cerebro.addstrategy(TestStrategy)
result = cerebro.run()
3 自定义读取函数
重新自定义数据读取函数,自定义的方式就是继承数据加载类 GenericCSVData、PandasData 再构建一个新的类,然后在新的类里统一设置参数。
在Backtrader中,默认列对应的索引值 open (default: 1) , high (default: 2), low (default: 3), close (default: 4), volume (default: 5), openinterest (default: 6),自定义数据读取函数,需要注意:
- 如果传递负值(例如:-1),则表示 CSV 数据中不存在该字段
- 自定义的函数,不会修改 Backtrader 底层的数据表格内 lines 的排列规则。
daily_price.head(10)
datetime | sec_code | open | high | low | close | volume | openinterest | |
---|---|---|---|---|---|---|---|---|
0 | 2019-01-02 | 600466.SH | 33.064891 | 33.496709 | 31.954503 | 32.386321 | 10629352 | 0 |
1 | 2019-01-02 | 603228.SH | 50.660230 | 51.458513 | 50.394136 | 51.120778 | 426147 | 0 |
2 | 2019-01-02 | 600315.SH | 148.258423 | 150.480132 | 148.258423 | 149.558935 | 2138556 | 0 |
3 | 2019-01-02 | 000750.SZ | 49.512579 | 53.154883 | 48.715825 | 51.561375 | 227557612 | 0 |
4 | 2019-01-02 | 002588.SZ | 36.608672 | 36.608672 | 35.669988 | 35.763857 | 2841517 | 0 |
5 | 2019-01-02 | 002926.SZ | 8.405656 | 8.475954 | 8.335358 | 8.435784 | 5534055 | 0 |
6 | 2019-01-02 | 603816.SH | 46.480518 | 46.480518 | 44.110319 | 45.013252 | 1864419 | 0 |
7 | 2019-01-02 | 002517.SZ | 23.626701 | 23.626701 | 23.252663 | 23.315003 | 9767171 | 0 |
8 | 2019-01-02 | 600366.SH | 56.675032 | 58.756972 | 56.675032 | 57.600338 | 5504462 | 0 |
9 | 2019-01-02 | 001914.SZ | 60.604621 | 61.414843 | 60.118487 | 60.280532 | 1484088 | 0 |
示例说明:
- 定义读取数据时间范围:20190102 - 20210128
- 缺失值设置为0.0
- 日期格式定义为YYYY-MM-DD
- 定义openinterest 为不存在列
class My_CSVData(bt.feeds.GenericCSVData):params = (('fromdate', datetime.datetime(2019,1,2)),('todate', datetime.datetime(2021,1,28)),('nullvalue', 0.0),('dtformat', ('%Y-%m-%d')),('datetime', 0),('time', -1),('high', 3),('low', 4),('open', 2),('close', 5),('volume', 6),('openinterest', -1)
)class TestStrategy(bt.Strategy):def __init__(self):self.count = 0 # 用于计算 next 的循环次数# 打印数据集和数据集对应的名称print("------------- init 中的索引位置-------------")print('--- 打印 self.datas 第一个数据表格的 lines ---')print(self.datas[0]._name,self.datas[0].lines.getlinealiases())cerebro = bt.Cerebro()
data = My_CSVData(dataname='./data/daily_price.csv')
cerebro.adddata(data, name='600466.SH')
cerebro.addstrategy(TestStrategy)
rasult = cerebro.run()
4 新增指标
往 Backtrader 的数据表格里添加指标,就是给数据表格新增列,也就是给数据表格新增 line。
在继承原始的数据读取类 GenericCSVData 或 bt.feeds.PandasData 的基础上,设置 lines 属性和 params 属性,新的 line 会按其在 lines 属性中的顺序依次添加进数据表格中。
示例说明:
- 本次增加PE、PB信息;
- 继承bt.feeds.PandasData类;
- 在现有的数据上追加PB、PE列数据;
class PandasData_more(bt.feeds.PandasData):# 要添加的线lines = ('pe','pb',)# -1表示自动按列明匹配数据,也可以设置为线在数据源中列的位置索引 (('pe',6),('pb',7),)params=(('pe',-1),('pb',-1),)class TestStrategy(bt.Strategy):def __init__(self):print('---第一个数据表格 lines---')print(self.data0.lines.getlinealiases())print('pe line:', self.data0.lines.pe)print('pb line:', self.data0.lines.pb)data1['pe'] = 2
data1['pb'] = 3cerebro = bt.Cerebro()
st_date = datetime.datetime(2019,1,2)
ed_date = datetime.datetime(2021,1,28)# 调用PandasData_more,导入Data1数据
datafeed1 = PandasData_more(dataname=data1,fromdate=st_date,todate = ed_date)
cerebro.adddata(data=datafeed1,name='600466.SH')cerebro.addstrategy(TestStrategy)
result = cerebro.run()
---第一个数据表格 lines---
('close', 'low', 'high', 'open', 'volume', 'openinterest', 'datetime', 'pe', 'pb')
pe line: <backtrader.linebuffer.LineBuffer object at 0x133edfc40>
pb line: <backtrader.linebuffer.LineBuffer object at 0x133edf9d0>
在继承原始的数据读取类 GenericCSVData 的基础上,设置 lines 属性和 params 属性,新的 line 会按其在 lines 属性中的顺序依次添加进数据表格中。
示例说明:
- 本次增加PE、PB信息;
- 继承GenericCSVData类;
- 在现有的数据上追加PB、PE列数据;
from backtrader.feeds import GenericCSVDataclass GenericCSV_PE(GenericCSVData):# 在从基类继承的行中添加一个'pe'行lines = ('pe',)# openinterest in GenericCSVData has index 7 ... add 1# add the parameter to the parameters inherited from the base classparams = (('pe', 7),('fromdate', datetime.datetime(2019,1,2)),('todate', datetime.datetime(2021,1,28)),('nullvalue', 0.0),('dtformat', ('%Y-%m-%d')),('datetime', 0),('time', -1),('high', 3),('low', 4),('open', 2),('close', 5),('volume', 6),('openinterest', -1))class TestStrategy(bt.Strategy):def __init__(self):print('---第一个数据表格 lines---')print(self.data0.lines.getlinealiases())print('pe line:', self.data0.lines.pe)#print('pb line:', self.data0.lines.pb)data1['pe'] = 2cerebro = bt.Cerebro()
# 调用PandasData_more,导入Data1数据
datafeed1 = GenericCSV_PE(dataname='./data/daily_price.csv')
print(type(datafeed1))
cerebro.adddata(data=datafeed1,name='600466.SH')cerebro.addstrategy(TestStrategy)
result = cerebro.run()