挖挖双色球——数据挖掘技术 分享

最近双色球比较热闹,因为河南1彩民独中双色球3.6亿巨奖!
    《媒体报道:2009年10月8日,国庆长假结束前的最后一天,在这个注定要被写进中国彩票史的日子,河南省安阳市成为了全国瞩目的焦点。当期中国福利彩票“双色球”第2009118期开奖,全国中出93注头奖,单注奖金409万元,河南一神勇彩民一人独得其中88注头奖,中奖总金额高达3.599亿元,在时隔286期后,一举改写了“甘肃神话”,刷新了中国彩票新纪录。 》
最近网上很多网民对此议论纷纷,这次传统媒体也开始有了质疑声音:《齐鲁晚报:公众对3.6亿巨奖的怀疑不能漠视》 。双色球能猜中吗?本篇博文并不是针对如何猜中双色球的评论,我的能力和知识也无法去评论,当然,作为一个对数字偏爱的人,当然会研究研究双色球这些数字啦!
    有媒体曾经采访过沈老师,还说:沈浩老师一直带领着他的研究生从事双色球研究。哈哈!!!
    下面我们就一起来挖挖双色球!
    要挖双色球,首先要获得双色球数据。双色球网站:www.zhcw.com,往期回顾——>常规项目表,时间:采集日期2009年10月12日。
建议:大家用IE浏览器,找到常规项目表,Ctrl+C,然后Ctrl+V,收集到Excel里面,自从有了双色球游戏后,从03年到09年,近7年时间,共开出944期双色球!

我们能猜中双色球吗?基于常识回答:肯定猜不中,如果能猜中,国家没法玩这个游戏,如果能猜中,他会告诉你,不可能的事情;所以,我们要有基本的科学素养,但是很多人连基本的科学素养的没有!
    上面这张表就是采集下来的944期双色球数据,看到没有,红色那期就是买中3.6亿的那组号码啦!我们首先删除不用的字段,保留ID期号,记住一定要有ID期号,这是数据的关键字。从数据中我们看到数据已经排好序了,已经没有出球顺序信息了。
    我们也删掉蓝球No7,因为如果能够猜中红球,多买16注一定中一等奖!所以抓住主要矛盾不研究蓝球,只研究1-33个编号的红球,字段No1到No6。
    这里我们假设:双色球数据是干净的,没有数据质量问题!
    双色球数据天生适合数据挖掘,因为数据挖掘技术就是从数据中发现知识的过程,我们对双色球一点理论知识都没有,只好挖呗!
    数据挖掘技术就是从数据中寻找隐藏在数据中的模式、趋势和相关性!
    假设:双色球如果有规律,944期中应该呈现规律!(记住:双色球没有规律,但我们的商业不会像双色球那样没有规律)
    首先,我们把Excel采集到的数据导入SPSS软件中,实际上我们现在整理的双色球数据是一张报表数据,我们需要把它转换成为交易数据集,也就是商业自动化采集的数据!
    数据挖掘往往都是从数据库数据中挖的,记住:从来我们不是为了数据挖掘而收集数据,而是商业自动化导致海量数据存储,需要数据挖掘发现知识!发现分析模型,商业规则!
这里我们用SPSS17.0数据重组技术,把数据转换成交易数据集!(现在可以用博易智讯提供的17.0版本,因为是多语言版本,所以可以随心所欲用英文或中文界面和输出了)
这时候数据已经转换成了交易数据集,过去一期数据占一行六列,现在数据是一期占一列六行;
下面,我们开始进行数据挖掘!
这里我们采用Clementine挖掘软件工具,(前段时间听博易智讯的马博士说,Clementine已经有了13.0版本,不过我现在采用8.1版本来操作)
    用SPSS类型数据源节点连上数据,当然要读取交易数据集,然后连上“类型”节点,注意,不同版本可能有不同的结果,8.1版会把Trans1字段认为是数值型的,但我们知道双色球1-33个红球,没有1+2=3,只是标记,所以要人工设定为“集合”类型,然后连上“过滤”节点,主要目的是保留ID字段和Trans1字段,删除id1和索引1字段,因为不考虑出球顺序,只要有ID字段和Trans1字段信息全部保留,记住这时候我们也把Trans1字段改名成字段P,方便记忆。
    当完成这个基础工作后,我们就可以连上“设为标志”字段,同时要按照ID汇总,另外,如果某期出现这个号码,则是1,否则是0;
当数据流流到设为标志字段后,我们已经把交易数据集转换成为了分析数据集,一个0-1数据集;
    此时,我们并不关系哪个球出现多少次,我们关系的是哪六个球经常一起出现!从上面的数据集角度看,我们并不需要关心哪个字段列分析,我们是希望横着分析,行里面的数据经常出现!
    其实我们在市场研究和经营分析领域经常会碰到类似的数据结构,比如:移动公司某个手机号码,在33个业务中定制了哪6个业务;在购物篮数据中,33个物品哪6个商品经常被一起购买;市场研究的多项选择题,33个选项中最多选6个等等。
    象这种类型的数据结构都可以采用Link Analysis叫做连接分析,博客上有个朋友提问什么是连接分析,其实一直想回答,但网上有很多描述不想赘述,正好我用这个数据来描述什么是link Analysis。
    连接分析,也就Link Analysis,是一种关联分析方法,Link Analysis is the examination of the linkages between effects in a complex system. Analysts typically employ a variety of techniques including OLAP, associations, sequences, clustering, and most important, graphics to examine the relationships between entities in a complex system. They try to discover patterns of activity that can be used to derive useful conclusions. Some applications include forms of fraud detection, criminal network conspiracies, telephone traffic patterns, Web site structure and usage, database visualization, and social network analysis.
    这段英文是来自SAS对Link Analysis的解释,属于数据挖掘技术,可视化技术,社会网络分析技术;我前面的文章提到《矩阵就是信息之一,之二》用到了社会网络技术,其实就是Link Analysis分析的一种形式。
    现在,我们在Clementine中Link Analysis是Web网络节点,也就网络分析图;现在我们连接上web网络,选择所有33个变量字段,此时叫P1到P33个0-1字段了,标志类型。
    从这个网络分析图(连接分析图)中,我们就可以看出,数据挖掘技术已经嵌入了社会网分析(具体可看前面博文——矩阵就是信息);你可以不断调整关系的强度,看到强连接信息等;
   从上图我们就可以看到,P3-P5经常一起出现,P20-P26经常一起出现等等,当然你也等看到P1,P8,P14,P17,P18,P30是一组经常出现的红球!其实到了数据挖掘,我们不仅能够看到图,我们还可以直接从图上点击哪些关系线,直接生成“与”和“或”节点,直接从数据库中把记录抽取出来,也就是看到关系就可以直接挖出来!上图右边显示了“强连接”信息,你就可以看到“啤酒和尿布经常一起被购买”的数据挖掘故事了!
   其实,到现在为止,我们还没有用到数据挖掘的建模技术,也就是真正的“发现规则”!有规则吗?我们选择建模面板中的“GRI节点”(一般规则侦测技术——属于Association技术,也是机器学习的建模方法),连上GRI节点,记住:这之前还有重新加入“类型节点”,选择所有字段P1到P33,设置字段方向为“两者”,表明33个字段即可能是预测别人,也可能被别人预测!同时别忘了,把ID字段设为“无”,不要参与分析!
   好了,现在执行,看看结果!
   从上面的GRI分析,我们可以看出:前项之后,是后项,也就是说:如果出现了P3、P9、P31则下一个最可能出现P11,依次都可以看到GRI发现的规则;有没有发现六个球的规则呢,没有!如果有我就不写这篇博文啦,哈哈,开个玩笑!
  至此,大家可以看到我写“挖挖双色球的文章”主要目的是什么?
  1-沈老师的目的,2-所用工具,3-数据基本结构,4-你可以用来挖什么?
  我一直坚持说:双色球没有规律,你的商业不会像双色球那样没有规律!
  希望对你有帮助!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44523.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

成都程序员双色球中2682万!号码是电脑算出来的?

你人生中最狂野的梦想是什么? 如果是播妞来回答的话,播妞做梦都想中一次彩票头奖,彻底解放自己被贫穷限制的想象力,来一次不一样的人生! 播妞是没有这么幸运了,不过,近日,四川成都的…

Python网络爬虫和信息提取:(动态网站)双色球数据爬取及写入数据库Sqlite、json和Excel表

我想着拿什么练习下网络爬虫信息提取时,就想到了双色球,心想把往期数据提取出来也是个不错的主意,把数据保存下来以后做数据分析,根据分析结果去买双色球岂不是美哉?!哈哈哈。。 当然这里仅是爬取和保存&am…

双色球

最近身边很多人玩双色球。。我也买了几期。 下面是双色球模拟程序,代码如下: package Test;import java.sql.Connection; import java.sql.PreparedStatement; import java.sql.SQLException; import java.sql.Statement; import java.util.ArrayList;…

双色球的概率

为什么80%的码农都做不了架构师?>>> 双色球所有的组合数:33x32x31x30x29x28/6/5/4/3/2/1x1617721088。因此随机买一注的话,中头奖的概率约为“一千七百七十二万分之一”。最近一期双色球为15028期,销售额为318 360 50…

java 随机生成双色球

1.描述 输入注数,Java随机生成双色球 2.代码 import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; import java.util.Scanner;public class Two_color_ball {// 随机生成双色球 前区 01-33 取6个数 后区…

诗歌与词曲收藏

《和子由渑池怀旧》-(宋)苏轼 人生到处知何似,应似飞鸿踏雪泥。 泥上偶然留指爪,鸿飞那复计东西。 老僧已死成新塔,坏壁无由见旧题。 往日崎岖还记否,路长人困蹇驴嘶。 《年轻的心》-席慕容 不再回头的 …

【情人节表白神器:送她一个HTML动态表白网站 带源码】

ChatGPT 介绍 ChatGPT 是由 OpenAI 开发的高级语言模型。它是一种基于变换器的神经网络,已经在互联网上的大量文本数据上进行了训练。这使得 ChatGPT 具有很强的语言理解能力,能够生成人类般的文本内容,如回答问题、生成摘要、翻译等。 近期…

基础知识6

知乎上的面试题:https://zhuanlan.zhihu.com/p/546032003 一、Topk问题以及变种,各种解法 微博的热门排行就属于 TopK 问题 TopK 一般是要求在 N 个数的集合中找到最小或者最大的 K 个值,通常 N 都非常得大。 算法的优点是不用在内存中读入全…

美云智数孔凡实:工业软件“突围战”——强化核心技术+渠道共赢生态丨数据猿专访...

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 “仿真和数字孪生是企业数字化发展中的刚需的,不论是什么制造业,都会有产品,有产品就会有制造的仿真。”——美云智数渠道产品BU总经理 孔凡实 随着元宇宙概念的火热,数字孪生…

日语毕业论文日文参考文献怎么找?

要说什么东西能够让一位当代大学生茶饭不思、日渐消瘦,那么论文一定能够排得上号。近些年,学术不端的行为在学术界受到越来越多的关注,对于学位论文的要求也越来越高。大家都知道,写出一篇学位论文很难。写出一篇日语毕业论文更是…

GPT 吞噬一切!我们还需要编程语言吗?

作者 | GPT-4 责编 | 唐门教主 出品 | 《智能之境》,一个由 AIGC 创作的栏目 编者按 「智能之境」专栏更新:AGI 的未来,究竟属于 Rust 还是 Mojo?或者我们还需要编程语言吗? LLVM 之父、苹果的编程语言 Swift 之父、新…

ChatGPT 技术首发上车,集度汽车官宣将融合文心一言;谷歌自研数据中心芯片取得新进展;Firefox 110 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

第三课总结吴恩达 ChatGPT Prompt 免费视频

前两课在这里: 总结吴恩达 ChatGPT Prompt 免费课程 第二弹进阶吴恩达 ChatGPT Prompt 技巧 今天第三课,两个技巧 第一个,Prompt 迭代开发 熟悉我号《有关SQL》的朋友都知道,SQL 调优有经典的三板斧,最激动人心的是第三…

吴恩达 Chatgpt prompt 工程--5.Transforming

探索如何将大型语言模型用于文本转换任务,如语言翻译、拼写和语法检查、音调调整和格式转换。 Setup import openai import osfrom dotenv import load_dotenv, find_dotenv _ load_dotenv(find_dotenv()) # read local .env fileopenai.api_key os.getenv(OPE…

吴恩达 Chatgpt prompt 工程--2.Iterative-prompt

迭代分析和完善prompts,以从产品概况表中生成营销副本。 Setup import openai import osfrom dotenv import load_dotenv, find_dotenv _ load_dotenv(find_dotenv()) # read local .env fileopenai.api_key os.getenv(OPENAI_API_KEY)def get_completion(prom…

吴恩达 ChatGPT Prompt Engineering for Developers 系列课程笔记--07 Expanding

07 Expanding 本节示例如何用ChatGPT生成一封电子邮件的回复。 1) 定制化情绪 给定客户评论,我们根据评论内容和情绪产生定制的回复。下面是给定情感(positive/negative),让ChatGPT产生相应回复的prompt。 """…

吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界

明敏 杨净 发自 凹非寺量子位 | 公众号 QbitAI 没想到时至今日,ChatGPT竟还会犯低级错误? 吴恩达大神最新开课就指出来了: ChatGPT不会反转单词! 比如让它反转下lollipop这个词,输出是pilollol,完全混乱。 …

吴恩达ChatGPT《LangChain for LLM Application Development》笔记

基于 LangChain 的 LLM 应用开发 1. 介绍 现在,使用 Prompt 可以快速开发一个应用程序,但是一个应用程序可能需要多次写Prompt,并对 LLM 的输出结果进行解析。因此,需要编写很多胶水代码。 Harrison Chase 创建的 LangChain 框…

国际海运出口的操作流程是怎样的?

国际海运运输因为方便快捷以及运费低等特点,一直以来是大多数外贸企业出口货物物流运输的首选,然而新进入外贸行业的朋友们,对于海运出口流程还不是很了解,今天箱讯小编就为大家来介绍下。 海运出口操作流程如下: 1、…

用Python赚钱的方法有哪些?

很多人想知道用Python赚钱的方法有哪些?Python很容易使用,应用性较强。可以通过使用Python开发小程序、抓取数据、游戏开发、兼职编程老师,发展副业的方式来赚钱。 用Python赚钱的方法: 1、某宝搜python程序      可以到某宝…