python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)

python数据分析的实战篇,围绕实例的数据展开分析,通过数据操作案例来了解数据分析中的频繁用到的知识内容。

抖音用户数据分析

1.理解数据

数据字段含义

了解数据内容,确保数据来源是正常的,安全合法的。理解一下每一个字段的含义,A列是序号ID,不连续,没有多大的意义可以删除掉;B列uid为看视频的用户id;C列user_city为用户所在的城市,用数字来代替;D列为intem_id为作品的ID;E列author_id为发布作品的作者ID;F列item_city为发布视频作者所在的城市;G列channel为观看视频的来源,现在视频的来源不光是在APP上,在其他网站或者视频上都能有视频的推送;H列finish为是否完整浏览了视频作品;I列like为是否为作品点赞;J列music_id为使用的音乐;K列duration_time为作品的时长;L列real_time为作品真实发布的时间;M列H为当前的时间,具体到小时;N列date为发布的日前。
常用的代码 可以直接复制使用

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pyecharts %matplotlib inline  # 每一行默认输出
plt.style.use('ggplot')  # 风格的设置plt.rcParams['font.family'] = 'SimHei'  # 设置中文字体
plt.rcParams['axes.unicode_minus'] = False # 坐标轴支持负号

导入数据的时候,数据内容比较多,超出excel或者wps文件的范围时,打开数据就会有缺失。在数据处理的时候,如果处理的数据是几百条到万以内的,excel和wps可以进行相应的操作;分析的数据级别是几千到几十万,超出了excel和wps的表格范围,数据不能正常的显示,所以就要用pandas进行分析;如果数据是以亿级别的,就要用到大数据分析。
在这里插入图片描述
导入数据之后,对数据进行预览,可以看到有100多万条数据,之前的查看信息会显示有数据的数量,如果数据没有缺失值的话,就不再显示数据的数量。可以用describe来统计表中数值的信息,查看有无异常数值,如果表中数据为字符串则不显示。
在这里插入图片描述
在这里插入图片描述

2.数据处理

数据处理,在机器学习中成为数据清洗和特征工程。在探索性的数据分析(EDA)中,用不到算法的话,只需要做数据相应的处理,包含了数据的清洗。
在这里插入图片描述
如果对表格的原数据进行更改,可以在参数里增加inplace=True;如果不再原数据上进行更改,可以把更改的内容重新赋值为原数据的变量名。
在这里插入图片描述

3.分析数据

通过可视化的手段,利用图表来对数据进行分析。在探索型的数据分析(EDA)中经常用可视化来完成,利用图表展示;在验证性的数据分析中,要利用统计学的知识做假设校验,运用算法进行预测,建立模型。
在这里插入图片描述
画图之前要先把需要的x轴和y轴的数据准备好。分析日播放量、日用户量、日作者量、日作品量跟时间有关系,x轴为时间,y轴是播放、用户、作者、作品的信息,可以通过日期进行分组来进行计算。
在这里插入图片描述
在这里插入图片描述
作品数量top50中,数量与播放率、点赞率之间之间的关系;
在这里插入图片描述
在这里插入图片描述

4.结论

4.1分析日播放量、日用户量、日作者量、日作品量跟时间有关系

日播放量、日用户量、日作者量、日作品量随时间的变化保持一样的变化趋势,前期都平稳增长,从10-20到10-29日,出现了剧烈增长,随后又出现了下降的趋势,可能是这个期间平台进行活动,吸引用户去发布作品和观看作品,作品量,作者量,作者量在这个时间内都会出现巨幅增长,活动结束用户就回归到正常的水平。

4.2 数量与播放率、点赞率之间之间的关系

数量与播放率是成正比;作品的数量和点赞率之间没有明显的关系。

某平台二手房数据分析

用pandas做数据处理,用pyecharts做可视化的图表,分析市面上二手房各项的基本特征以及房源分布的情况,探索二手房背后的规律。

1.导入库、读取数据

常用的数据可以直接理解,专业的数据需要掌握专业的知识,提前了解专业背景。
在这里插入图片描述

查看信息

查看数据统计以及基本信息,楼层、面积、价格、年份列为数值,电梯列有缺失。
在这里插入图片描述

2.数据处理

缺失值

电梯列缺失8257条数据,对于缺失值的处理有删除和填充操作,查看一下电梯列出现的数据,查看电梯列的值的唯一值,为“有电梯”、“无电梯”和NaN,对于不确定的因素,可以填充NaN为第三方的数据,比如填充为“未知”。
在这里插入图片描述
查看数据求朝向的唯一值,发现房屋的朝向有意义相同的值,比如“西南”和“南西”表示同一个方位,可以对数据进行替换,对值进行统一。利用groupby统计各个城区二手房的数量,发现丰台、昌平、朝阳、海淀的二手房屋数量最多。
在这里插入图片描述

数据转换

把数据转换为列表,便于图表的绘制。
在这里插入图片描述

3.可视化分析

3.1 各个城区二手房数量分布地图

把每个区的名字取出来,拼接上字符串“区”,实例化地图类,传入键值对,绘制地图。移动鼠标可以很便捷的查看每个区的房屋数据,拖动左侧的热力图可以使得筛选区域在地图上以不同的颜色进行显示。
在这里插入图片描述

3.2 各个城区二手房的平均价格

对于列名称要直接复制,以防列名称中有空格类的字符,在代码中直接输入会找不到。
在这里插入图片描述
以区域为x轴,房屋的数量和平均价格分别为y轴绘制图表。
在这里插入图片描述
在这里插入图片描述

3.3 二手房价格最高的Top15

在这里插入图片描述
在这里插入图片描述

3.4 二手房的总价与面积的散点图

说明房屋集中在面积400平以下,价格3000万以下。
在这里插入图片描述

3.5 房屋朝向的饼图

大部分房屋都是南北朝向。
在这里插入图片描述
在这里插入图片描述

3.6 装修情况的柱状图和有无电梯的玫瑰图

玫瑰图也就是不规则的圆环图。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.7 二手房楼层分布柱形图

通过数据可以看出 6层的楼房交易量最多。
在这里插入图片描述
在这里插入图片描述

3.8 房屋面积分布柱形图

每套房的面积是连续型的数值,不能进行分组,因为每套房的面积大都不相同,可以利用区间进行面元划分。
在这里插入图片描述
在这里插入图片描述

4. 分析结论

对二手房数据从不同角度进行分析,通过图表可以得出:
每个城区的二手房数量,丰台、昌平、朝阳、海淀四个区域在售的二手房数量是最多的,占总二手房的一半;
从平均售价中可以看出,丰台、昌平、朝阳、海淀的平均售价在800万以上;
二手房房屋的面积大概都在200平左右;约50%的房子都是南北朝向;
通过装修情况可以看出装修的房子比较多,说明自己住的房子出售的比较多;
大多数在售的房屋都是6层;大多数房屋的面积在150平以内。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/184869.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C站你好,和你相遇的第1825天

文章目录 机缘收获日常成就憧憬 机缘 ①. 你好,C站 ②. 初识JAVA编程,遇到问题,粘贴问题百度搜索,大都数出来的解决方案都能在C站得到解决,对C站有一定的好感 ③. 起初在CSDN写博客,主要用来记录日常学习过程中的笔记、不断调整自己的笔记,如JAVA基础、框架、虚拟机等,为后…

java传base64返回给数据报404踩坑

一、问题复现 1.可能因为base64字符太长,导致后端处理时出错,表现为前端请求报400错误; 这一步debug进去发现base64数据是正常传值的 所以排除掉不是后端问题,但是看了下前端请求,猜测可能是转换base64时间太长数据过大导致的404 2.前端传…

聚观早报 |GPT-4周活用户数达1亿;长城汽车10月销量增加

【聚观365】11月8日消息 GPT-4周活用户数达1亿 长城汽车10月销量增加 xAI宣布推出PromptIDE工具 aigo爱国者连发5款儿童手表 SpaceX预计今年营收90亿美元 GPT-4周活用户数达1亿 在OpenAI首届开发者大会上,该公司首席执行官萨姆奥特曼(Sam Altman&a…

删除word最后一页之后的空白页

最近编辑word比较多,有时最后一页(最后一页内容还有可能是表格)之后,还有一页空白页,单独按下backspace、del都删不掉,很让人着急。 经过查询有几种方法: (1)点击选中空…

C#中基于.NET6的动态编译技术

前几天要解决动态计算问题,尝试着使用了不同的方法。问题是给定一个包含计算的字符串,在程序运行中得到计算结果,当时考虑了动态编译,在网上查了一些资料完成了这项功能,可是基于不同的.NET平台使用的编程代码相差比较…

Spring Data JPA 项目配置与QueryDSL集成

一、说明 Spring Data JPA通过Spring Initializer创建时勾选相关依赖即可引入,QueryDSL需要单独引入。Spring JPA针对QueryDSL有比较好的兼容性,可以实现优雅的SQL构建。 二、设置JPA默认配置(yaml格式) spring:jpa:hibernate:…

【Linux】:使用git命令行 || 在github创建项目 || Linux第一个小程序——进度条(进阶版本)

在本章开始之前还是先给大家分享一张图片 这是C的笔试题 感兴趣的同学可以去试一试 有难度的哟 也可以直接在牛客网直接搜索这几道题目哈 好了今天我们正式进入我们的正题部分 🕖1.使用git命令行 安装git yum install git🕠2.在github创建项目 使用…

各省市90米分辨率DEM数据,多图可下载

之前给大家推了30米分辨率dem数据,有些小伙伴反应也需要90米的,于是今天就给大家推荐一个新数据 —— 各省市90米分辨率DEM数据! 各省市90米分辨率DEM数据广泛应用于国土资源调查、水利水电工程、地质灾害预警、城市规划等领域,对…

10道高频Vuex面试题快问快答

※其他的快问快答,看这里! 10道高频Qiankun微前端面试题快问快答 10道高频webpack面试题快问快答 20道高频CSS面试题快问快答 20道高频JavaScript面试题快问快答 30道高频Vue面试题快问快答 面试中的快问快答 快问快答的情景在面试中非常常见。 在面试过…

公开IP属地信息如何保护用户的隐私?

公开IP属地信息通常涉及与用户或组织的隐私有关,因此在公开此类信息时需要非常小心,以避免侵犯他人的隐私权。以下是触碰底线的几种情况以及如何保护网络安全和用户隐私: 个人隐私保护: 公开IP属地信息可能泄露用户的物理位置&…

响应式编程-Project Reactor Mono 介绍

响应式编程-Project Reactor Mono 介绍 本文以Mono的角度来介绍Reactor编程,Flux的使用同理。 初体验 Web应用 controller 方法在Spring webmvc 和 Spring webFlux下Controller方法实现示例如下: Spring webmvc: GetMapping("/test1") …

最新Cocos Creator 3.x 如何动态修改3D物体的透明度

Cocos Creator 3.x 的2D UI有个组件UIOpacity组件可以动态修改UI的透明度,非常方便。很多同学想3D物体上也有一个这样的组件来动态的控制与修改3D物体的透明度。今天基于Cocos Creator 3.8 来实现一个可以动态修改3D物体透明度的组件Opacity3D。 对啦!这里有个游戏…

【深度神经网络(DNN)】实现车牌识别

文章目录 前言一、数据集介绍二、步骤1.导包2.参数配置3.数据处理4.模型定义5.模型训练6.模型预测 总结 前言 课内实践作业 车牌识别 一、数据集介绍 1.车牌识别数据集:VehicleLicense车牌识别数据集包含16151张单字符数据,所有的单字符均为严格切割且…

PTL仓储亮灯拣选系统优化仓库作业流程实现物料快速定位

随着现代企业的发展和生产模式的不断演进,仓库管理作为生产供应链中的重要环节,也在不断追求效率和精益化。为了实现企业的现代化仓库管理,实现仓库条码化、自动化、无纸化,做到物料和成品从入库、出库、退库、移库、盘点整个过程…

【UE4】UE编辑器乱码问题

环境:UE4.27、vs2019 如何解决 问题原因,UE的编码默认是UTF-8,VS的默认编码是GBK 通过"高级保存选项" 直接修改VS的 .h头文件 的 编码 为 UTF-8 步骤1. 步骤2. 修改编码后,从新编译,然后就可以解决编辑器…

Docker 介绍

Docker 介绍 1 介绍1.1 概述1.2 资源高效利用1.3 发展历程1.4 组件1.5 工具1.6 对环境部署和虚拟化的影响1.7 优点1.8 容器技术核心CgroupNamespaceUnionFS 2 命令信息、状态、配置info命令用于显示当前系统信息、docker容器、镜像个数、设置等信息 镜像容器资源 3 安装3.1 版本…

2022年电工杯数学建模B题5G网络环境下应急物资配送问题求解全过程论文及程序

2022年电工杯数学建模 B题 5G网络环境下应急物资配送问题 原题再现: 一些重特大突发事件往往会造成道路阻断、损坏、封闭等意想不到的情况,对人们的日常生活会造成一定的影响。为了保证人们的正常生活,将应急物资及时准确地配送到位尤为重要…

jacoco和sonar

目录 jacoco 引入依赖 构建配置修改 单元测试 生成报告 查看报告 报告说明 1. Instructions 2. Branches 3. Cyclomatic Complexity 4. Lines 5. Methods 6. Classes sonar7.7 基础环境 需要下载软件 解压文件并配置 运行启动 jacoco 引入依赖 <dep…

【论文阅读】PSDF Fusion:用于动态 3D 数据融合和场景重建的概率符号距离函数

【论文阅读】PSDF Fusion&#xff1a;用于动态 3D 数据融合和场景重建的概率符号距离函数 Abstract1 Introduction3 Overview3.1 Hybrid Data Structure3.2 3D Representations3.3 Pipeline 4 PSDF Fusion and Surface Reconstruction4.1 PSDF Fusion4.2 Inlier Ratio Evaluati…

Spring boot集成sentinel限流服务

Sentinel集成文档 Sentinel控制台 Sentinel本身不支持持久化&#xff0c;项目通过下载源码改造后&#xff0c;将规则配置持久化进nacos中&#xff0c;sentinel重启后&#xff0c;配置不会丢失。 架构图&#xff1a; 改造步骤&#xff1a; 接着我们就要改造Sentinel的源码。…