项目:基于Python的热点分析预警系统
摘 要
基于网络爬虫的数据可视化服务系统是一种能自动从网络上收集信息的工具,可根据用户的需求定向采集特定数据信息的工具,本项目通过研究爬取微博网来实现微博热点分析数据信息可视化系统功能。对于采集微博热点群体发现信息数量较少的工作而言,实现一个网页下载程序不会很麻烦,但是,当从网络上采集海量信息的时候,爬虫系统的实现将变得十分复杂。
热点分析预警系统爬虫技术仅仅处理数据抽取这一步。网络爬虫只将网络上的页面下载下来,对下载的非结构化数据没有进行处理,而直接将其保存到数据库之中。这样做的劣势在于:搜索引擎的后续操作首先要从数据库种获取到这些非结构化信息,然后再进一步的进行信息的处理。这样无形之中增添了两次操作数据库的任务量,在数据量极其庞大的背景下,会大大降低整个系统的效率。
热点分析预警系统当前最为流程的python技术来实现对爬虫各功能。
关键词:msyql;信息;python;热点分析预警 ;爬虫
目 录
本 科 生 毕 业 论 文(设计) II
题目:基于Python的热点分析预警系统 II
摘 要 III
Abstract IV
第一章 概述 1
1.1 研究背景 1
1.2 目的及意义 1
1.3 系统体系结构 2
1.4 Python技术 2
第二章 系统需求分析 4
2.1可行性分析 4
2.1.1经济上的可行性 4
2.1.2技术上的可行性 4
2.1.3操作上的可行性 4
2.2功能需求分析 4
2.3 系统用例图 5
2.4 业务流程分析 6
2.5 系统数据流图 6
2.6 数据字典 8
第三章 系统总体设计 10
3.1网站功能结构图 10
3.3网站开发目标 10
3.4网站性能需求 11
第四章 数据库设计 12
4.1数据库概念结构设计 12
4.2数据库逻辑结构设计 13
第五章 系统详细设计 15
5.1爬虫功能模块设计 15
5.2 服务器数据库端 19
第六章 系统测试 23
6.1 测试的任务及目标 23
6.1.1测试的任务 23
6.1.2测试的目标 23
6.2测试方案 23
6.2.1模块测试 23
6.2.2集成测试 24
6.2.3验收测试 24
6.2.4平行运行 24
结 论 25
致 谢 26
参考文献 27