简介
因为工作需要,爬了几个大型的网站,练就一身爬取数据和分析数据的功夫。所以,在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据,并进行分析,得出一些有价值有潜力的股票代码。实盘到没有测试,随便估计了一下,至少跟盘不会出现亏损。
先普及一下组合的概念:由雪球、微博等平台的投资主理人管理的股票持仓池。
技术架构
特点:简单可依赖
- 多服务器多核心异步架构实时爬取
- 机器学习、数理统计经典方法分析
- 6000+组合数据分析的结果秒出
以上有点吹。但是爬取的效果还是准确的。
分析方法
主要是基于统计方法。机器学习也会在后面跟上,获得更多有价值的信息。
我们分析了6000+组合的数据,对每个组合的具体持仓进行了分析。得出所有组合持仓的并集,这就是持仓最多的热门股票。当然已经排除停牌股。
同时,计算组合持仓的相同的股票的仓位大小,用总仓位除以持有该股的总组合数,得出平均权重。按大小,排除最佳重仓股。有的人会想,不少主理人喜欢重仓一只股票。所以,我们会特意标出仓位较重的组合名称及他们的个数,以供参考。不得不建议,想跟风最佳重仓股,请折半投资。比如平均仓位大小是90%,那么根据自己的仓位,投资20-45%左右是最佳的方案。
6000+ 组合并不是每一个组合都作为数据的权重出现。对于关停的、僵尸的、长线的组合,对其做分析貌似没有太多的价值。所以,我们分析以下2类组合:
- 总收益高于280%,月收益高于9%,每日收益震荡在-5% - 20%的组合,一月调仓3次以上
- 总收益为高于45%,月收益高于15%,每日收益震荡在-3% - 20%的组合,一月调仓5次以上
对外接口
之前在做Restful的一些应用,对于相关的技术还算了解。为了能让别人访问数据,我们做了接口,将分析、处理、加工完的数据开放。
只需要用户名即可,不需要密码,因为也没有打算建立用户账户体系。
展示网站
毕竟不是大多数人都会IT技术,所以没有办法。我只好又做了一个网站,专门用于展示分析数据。
不知道这个东西有没有人会看,但是希望能帮到大家。
团队简介
谷震平
目前在某一线互联网公司,任职数据仓库工程师,专注是数据采集、ETL。也是本文作者。笔者对这个项目的感情很特别。当初,大学辅修金融,以为自己毕业后能进投行工作,但是没人要。后来做了现在的工作。可能就是心里还有一丝丝抱怨与不甘,才做了现在的事情。希望,能帮助更多的人们,鼓励更多人追求梦想。
忆梦涟
一位美少女工程师,北邮研究生,专注NLP、机器学习。数据分析、科学计算的能力了得。
结语
写到这里,还有很多想说的没有说完。如果对我们的工作感兴趣,欢迎留言继续交流。
关注微信公众号,回复你所持有的股票中文名称,就会得到从6000多人的持仓数据中分析出来的该股情况!
现在只回复4项数据:
- 日期
- 平均持仓,该股在当天6000多人的平均持有情况,值在0 - 100%之间
- 总体持仓,该股在当天6000多人的全体持有情况,值大于0%
- 所在组合数,该股在当天6000多人的总计买入人数,值大于1
持仓的数据,请自己脑补%(百分号),忘记单位可就不好了。
快快添加关注公众号—-谷震平的专栏吧,也可扫二维码下方二维码:
^-^