小红书达人账号数据分析

文章目录

    • 一、项目背景
    • 二、数据预处理
      • 1、查看数据
      • 2、数据清洗
        • 2.1对达人列表进行清洗
        • 2.2对涨分榜进行清洗
        • 2.3对MCN列表进行清洗
        • 2.4对定性变量(分类变量)进行处理
      • 3、表格处理
        • 3.1合并达人列表和涨粉榜
    • 三、分析与数据可视化
      • 1、对达人列表进行相关性分析
      • 2、达人账号指标可视化
        • 2.1笔记报价与签约mcn公司
        • 2.2达人账号标签选择
        • 2.3赞藏总数与认证信息
    • 四、总结

一、项目背景

本项目对小红书一个月的达人列表、MCN签约列表和涨粉榜三表进行分析,通过Tableau数据可视化和相关性分析探究小红书达人账号的运营情况。
明确问题:
分析影响达人账号获得点赞收藏和笔记报价的主要指标有哪些;
分析哪类标签博主在小红书发展趋势较好,为新账号提供发展方向;
分析签约MCN公司对运营较好的达人账号的影响,为未签约的博主提供建议。

二、数据预处理

1、查看数据

#导入库
import pandas as pd
import matplotlib.pyplot as plt
#解决中文乱码问题
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False
#pd读入文件
blogger = pd.read_csv('/home/mw/input/xiaohongshu2316/达人列表_小红书.csv',sep = ',')
fans = pd.read_csv('/home/mw/input/xiaohongshu2316/涨粉榜_2021-10.csv', sep = ',')
mcn = pd.read_csv('/home/mw/input/xiaohongshu2316/MCN列表_小红书.csv', sep = ',')
#查看数据规模
print(blogger.shape)
#查看数据前3行,查看列名是否一致
blogger.info()
blogger.head(3)

在这里插入图片描述

print(fans.shape)
fans.info()
fans.head(3)

在这里插入图片描述

print(mcn.shape)
mcn.info()
mcn.head(3)

在这里插入图片描述在这里插入图片描述

2、数据清洗

检查数据集完整性,对空白值进行删除或填空。

#定义查看数据集情况的函数
def dfinfo(df):print('重复数据条数:',df.duplicated().sum())print('数据缺失情况:')print(df.isnull().sum())

2.1对达人列表进行清洗

#查看达人列表数据情况
print(dfinfo(blogger))
#把报价和赞藏总数转换为浮点型
blogger['赞藏总数']= pd.to_numeric(blogger['赞藏总数'],errors='coerce')
blogger['图文笔记报价']= pd.to_numeric(blogger['图文笔记报价'],errors='coerce')
blogger['视频笔记报价']= pd.to_numeric(blogger['视频笔记报价'],errors='coerce')

在这里插入图片描述
可见达人列表没有重复值,认证信息和签约MCN字段缺失值过半,删除缺失值会导致数据量大幅度减少,所以采用填充方法处理缺失值:
(1)对“地域”、“简介”、“认证信息”、“签约MCN”、“达人标签”、“更新时间”这类文本字段的缺失值填充“未设置”;
(2)因“赞藏总数”只缺失一个,缺失值较少,对此填充”0“;
(3)因报价差距偏大,平均值易受影响,所以用中位数填充“视频笔记报价”和“图文笔记报价”字段的缺失值。

blogger["地域"].fillna('未设置',inplace=True)
blogger["简介"].fillna('未设置',inplace=True)
blogger["认证信息"].fillna('未认证',inplace=True)
blogger["签约MCN"].fillna('未签约',inplace=True)
blogger["达人标签"].fillna('未设置',inplace=True)
blogger["更新时间"].fillna('未设置',inplace=True)
blogger["赞藏总数"].fillna(0,inplace=True)
blogger["图文笔记报价"].fillna(blogger["图文笔记报价"].median(),inplace=True)
blogger["视频笔记报价"].fillna(blogger["视频笔记报价"].median(),inplace=True)
#填充后再次查看达人数据情况
dfinfo(blogger)
blogger.head(3)

在这里插入图片描述在这里插入图片描述

2.2对涨分榜进行清洗

#查看涨分榜数据情况
dfinfo(fans)

在这里插入图片描述
可见涨分榜数据完整,没有缺失值

2.3对MCN列表进行清洗

#查看MCN列表数据情况
dfinfo(mcn)

在这里插入图片描述
同理达人列表:
(1)对“机构公司”、“简介”、“小红书号”、“TOP3达人”这类文本字段缺失值填充“未设置”;
(2)对“达人粉丝总数”这类数值型字段缺失值填充“0”。

mcn["机构公司"].fillna('未设置',inplace=True)
mcn["简介"].fillna('未设置',inplace=True)
mcn["小红书号"].fillna('未设置',inplace=True)
mcn["TOP3达人"].fillna('未设置',inplace=True)
mcn["达人粉丝总数"].fillna('0',inplace=True)
#填充后再次查看MCN数据情况
dfinfo(mcn)

在这里插入图片描述

2.4对定性变量(分类变量)进行处理

定量变量之间能直接计算相关系数进行相关性分析,但为更好地分析定性变量与定量变量之间的相关性,此处需要把定性变量转换为虚拟变量(哑变量),即从分类变量转化为数值型数据,可与定性变量计算相关系数。

#对达人标签字段进行处理
#消除标签栏首尾空格
blogger["达人标签"]=blogger["达人标签"].str.strip()
#把标签以空格为间隔生成为列表
tags=blogger["达人标签"].str.split(' ')
print(tags.head(3))
#把所有标签列表打散合成一个总列表
i=0
b_tags=[]
for i in range(len(tags)):b_tags.extend(tags[i])
#查看总列表
print(b_tags[1])
#对标签列进行分类
blogger['分类达人标签']=blogger['达人标签']
#索引所有不等于未认证的行进行赋值
blogger.loc[blogger['分类达人标签'] != '未设置','分类达人标签'] = '已设置'

在这里插入图片描述

#同理对性别、认证信息、品牌合作人、签约MCN定性变量进行转化
#把认证信息和签约MCN分类
blogger['分类认证信息']=blogger['认证信息']
#索引所有不等于未认证的行进行赋值
blogger.loc[blogger['分类认证信息'] != '未认证','分类认证信息'] = '已认证'
blogger['分类签约MCN']=blogger['签约MCN']
#索引所有不等于未认证的行进行赋值
blogger.loc[blogger['分类签约MCN'] != '未签约','分类签约MCN'] = '已签约
#将达人列表的定性变量转换为哑变量
bl_dum = pd.DataFrame()
for i in ['性别','品牌合作人','认证类型','分类认证信息','分类签约MCN','分类达人标签']:i = pd.get_dummies(blogger[i], prefix = i)bl_dum = pd.concat([bl_dum,i],axis = 1)
bl_dum.head(2)'

在这里插入图片描述

#把所有哑变量和定量变量合成新表格
ls=['赞藏总数','粉丝数','图文笔记报价','视频笔记报价','商业笔记数']
blogger1=pd.concat([blogger[ls],bl_dum],axis = 1)
blogger1.head(3)

在这里插入图片描述

3、表格处理

3.1合并达人列表和涨粉榜

#基于小红书号进行连接
b_fans=pd.merge(blogger,fans,on="小红书号")
print(b_fans.shape)
b_fans.head(2)

在这里插入图片描述

三、分析与数据可视化

1、对达人列表进行相关性分析

#计算达人列表各字段之间的相关性
bl_pr=blogger1.corr(method="pearson")
bl_pr

在这里插入图片描述

#查看与赞藏总数相关性较高的指标
blogger1.corr(method="pearson")['赞藏总数'].sort_values(ascending = False)

在这里插入图片描述
相关系数r的判定条件为:|r|<= 0.3 不存在线性相关;0.3<=|r|<= 0.5 低度线性关系;0.5<=|r|<= 0.8 显著线性关系;|r| > 0.8 高度线性关系。由相关矩阵可知,达人账号的赞藏总数与粉丝数存在线性相关关系,与其他字段也存在一定的相关,其中相关度前五的指标分别为粉丝数 、商业笔记数、视频笔记报价 、分类达人标签_已设置、分类认证信息_已认证 。

#视频笔记报价比图文笔记报价普遍要高,查看与视频笔记报价相关性较高的指标
blogger1.corr(method="pearson")['视频笔记报价'].sort_values(ascending = False)

在这里插入图片描述达人账号的视频笔记报价相关度前三的指标分别为分类签约MCN_已签约 、图文笔记报价 、赞藏总数 、商业笔记数 、分类达人标签_已设置 。

2、达人账号指标可视化

运用Tableau进行数据可视化

2.1笔记报价与签约mcn公司

在这里插入图片描述二咖传媒和仙梓文化达人的笔记报价较高。

在这里插入图片描述

在众多MCN公司中,侵尘文化、众灿互动、告趣和仙梓文化是发展较好的

2.2达人账号标签选择

在这里插入图片描述
多数达人账号会打上美妆个护、美食、搞笑、时尚和运动健身等标签,这些领域在小红书平台上较受欢迎。

2.3赞藏总数与认证信息

在这里插入图片描述美妆、美食、时尚博主和演员的赞藏总数比较多,其中演员的粉丝数最多,所以演员的赞藏总数可能是明星效应导致的。

四、总结

赞藏总数和笔记报价都是评判小红书账号商业价值的重要指标,根据相关性分析结果交叉验证,得出以下结论:
1、赞藏总数多的账号伴随着粉丝数较多,随后与之相关的就是商业笔记数、视频笔记报价 、美妆、美食、时尚博主和演员的标签和认证信息。因此,对于个人账号,应当保持一定频率的笔记更新,并选择美妆、美食、时尚博主等方向作为自己的主要方向,可以选择搞笑和运动健身作为附加标签。
2、视频笔记报价略高于图文笔记报价,对商家可以优先选择图文笔记进行推广,其中二咖传媒和仙梓文化的报价较高,但粉丝数也较高,商家可以根据宣发方案选择合适的博主。
3、大部分运营较好的账号都签约了MCN公司,个人账号可选择签约MCN公司以帮助运营账号,从商业价值和粉丝数这两方面来看,仙梓文化是较优秀的公司,若注重粉丝增长方面,可考虑侵尘文化、众灿互动、告趣公司。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33398.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小红书账号分析丨千瓜指数高的小红书账号是否真的优质?

关键词&#xff1a;千瓜指数、小红书数据、小红书账号分析 达人账号质量是否优质从多个维度衡量&#xff0c;千瓜指数能够客观综合评价达人账号的质量&#xff0c;给到小红书达人一定的参考价值。 那么千瓜指数能够帮助达人什么&#xff1f; 品牌筛选达人会选择更优质的&#x…

GPT逆向:高效解读小红书文案生成器的内部逻辑

文章目录 前言一、什么是小红书文案生成器二、具体步骤总结 前言 关注我的很多同学都会写爬虫。但如果想把爬虫写得好&#xff0c;那一定要掌握一些逆向技术&#xff0c;对网页的JavaScript和安卓App进行逆向&#xff0c;从而突破签名或者绕过反爬虫限制。 最近半年&#xff…

小红书爆款笔记运营攻略

小红书爆款笔记运营攻略 2020-04-14 挖塘人 来源 审核中 修改 现在可以看到很多人手机里有款叫小红书的软件&#xff0c;它致力于打造聚焦生活方式的内容社区&#xff0c;并且凭借“万物皆可种草”红极一时&#xff0c;吸引着一大批年轻用户。 根据官方数据&#xff0c;截…

小红书近期发展动态---预言专家

总结为5件大事情&#xff1a; 事件1&#xff1a;为期三个月打击侵权行动----6月持续到9月 双月计划----清扫爬虫 事件2&#xff1a;APP接口风控提高-----持续 事件3&#xff1a;web端进行摸排升级改版-----7月 事件4&#xff1a;APP增加unidbg|unicorn检测对抗 ----最近一个月内…

教培行业如何在小红书推广 教育机构红书推广上海氖天

品牌打造在教育机构营销中占有重要地位。提升小红书中品牌知名度&#xff0c;需尽量彰显教育机构独特魅力与卓越实力。小红书给教育行业带来新的推广途径&#xff0c;可以把品牌打造的更形象、更简洁&#xff0c;另外用户粘性大、转化率高。接下来&#xff0c;这篇文章就来具体…

小红书4大主要人群的消费特征,你占了几个?

数据显示90%的小红书用户在购买前有过搜索小红书的行为。社交媒体时代&#xff0c;人货场被重新定义&#xff0c;更加多元的消费需求涌现&#xff0c;通过洞察“人”&#xff0c;我们找到了小红书4大主要人群的消费特征&#xff0c;供大家参考。 TA洞察 重塑“人货场” 传统…

小红书话题笔记是什么意思?小红书话题的形式有哪些?

相信很多小红书用户总会看到别人发布小红书话题笔记&#xff0c;或者自己也经常参与其中&#xff0c;但究竟小红书话题笔记是什么意思&#xff1f;今天让我们为大家分享一下。 一&#xff0e;小红书话题笔记是什么意思 小红书话题笔记是平台开发的一种内容创作功能&#xff0c…

小红书账号分析丨小红书kol速成干货分享

导语&#xff1a;很多萌新小白在刚运营小红书时动力满满&#xff0c;坚持一段时间后&#xff0c;开始愁选题愁数据&#xff0c;最后不了了之。普通人和专业博主&#xff0c;差距真的很大吗&#xff1f;NO&#xff01;只要持续不断地努力输出专业运营知识的学习&#xff0c;从素…

小红书7W粉丝美女大V被盗号了,前来咨询乔戈里,封面就是她

众所周知&#xff0c;乔戈里分手了&#xff0c;现在重心放到公众号上&#xff08;说得好像你有女朋友给你放重心似的呢&#xff09;&#xff0c;对于粉丝的求助会尽量尽力去帮助大家&#xff0c;这位粉丝是乔戈里的知识星球的球友&#xff0c;毕竟乔哥时间有限&#xff0c;对于…

Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models

大模型系列文章&#xff0c;针对《Beyond One-Model-Fits-All: A Survey of Domain Specialization for Large Language Models》的翻译。 超越一个模型适合所有&#xff1a;大型语言模型领域专业化综述 摘要1 引言1.1 相关综述 2 领域专业的分类2.1 背景2.2 领域专业的技术分…

“欠缺逻辑”的诺奖得主:我有更好的直觉

文 | 孙滔 王兆昱 作为乔治帕里西&#xff08;Giorgio Parisi&#xff09;的第一个博士生&#xff0c;张翼成至今也无法跟上导师的思维&#xff0c;尽管他自1981年跟随帕里西学习和工作有累计达8年的时间。 74岁的帕里西因发现了从原子到行星尺度的物理系统紊乱和波动的相互作用…

推特爆火!揭晓大模型的未来何去何从

文 | 智商掉了一地 巨大挑战 or 发展契机&#xff0c;ChatGPT 和 GPT-4 出现后&#xff0c;大模型的未来方向该何去何从&#xff1f; 近期&#xff0c;自然语言处理领域的快速发展引起了广泛的关注&#xff0c;尤其是大型语言模型&#xff08;LLM&#xff09;的兴起已经推动了该…

8个超好用的 AI 科研写作工具

近年来人工智能语言模型快速发展&#xff0c;尤其是当美国人工智能研究实验室 OpenAI 于2022年11月发布了聊天机器人ChatGPT&#xff0c;随之更是引爆了全世界的舆论&#xff0c;人们惊呼一个新的人工智能时代已经到来&#xff0c;很多工作都将被这类机器人取代。本文暂不讨论这…

最新研究:人类道德判断可能会受ChatGPT的影响

根据《科学报告》发表的一项研究&#xff0c;人类对道德困境的反应可能会受到人工智能对话机器人ChatGPT所写陈述的影响。这一研究表明&#xff0c;用户可能低估了自己的道德判断受ChatGPT影响的程度。 德国英戈尔施塔特应用科学大学科学家让ChatGPT&#xff08;由人工智能语言…

VGG应用:猫狗大战——基于VGG16的猫狗数据分类

一、数据集的处理与加载 class CatDogDataset(Dataset):def __init__(self, data_dir, mode"train", split_n0.9, rng_seed620, transformNone):self.mode modeself.data_dir data_dirself.rng_seed rng_seedself.split_n split_nself.data_info self._get_img…

Windows 7 专业版如何安装英文、中文语言包

下载相应的语言包&#xff0c;以管理员身份运行下载的exe文件&#xff0c;会在该exe文件的旁边生成一个lp.cab文件&#xff0c;赶快将此lp.cab复制一个副本文把lp.cab放到C:根目录接下来的步骤&#xff1a; 1. 在所有程序附件中&#xff0c;以管理员运行命令行:在命令窗口打入如…

chat中文国内版软件开发

如果要开发中文国内版的Chat软件&#xff0c;可能会包括以下一些功能&#xff1a; 中文自然语言处理&#xff1a;对于中文文本&#xff0c;需要进行中文自然语言处理&#xff0c;包括分词、词性标注、命名实体识别、情感分析等。 智能问答和对话系统&#xff1a;开发智…

Win32:C++其实早已支持中文编程

我们以前学习C/C的时候&#xff0c;对于变量和标识符的命名都有如下规则&#xff1a; 变量名必须由字母、数字、下划线构成只能以字母、下划线开头 似乎对中文不太友善啊&#xff0c;于是后来出现了一些中文编程的呼声&#xff0c;甚至还真的出现了一些中文编程语言。 其实在…

硅基MEMS制造技术分析

MEMS(微电子机械系统)技术是一种使产品集成化、微型化、智能化的微型机电系统。在半导体集成电路技术之上发展起来的硅基MEMS制造技术目前使用十分广泛。   国外技术发展日趋成熟 上世纪80年代&#xff0c;在美国政府的高度重视下MEMS技术研发开始起步。1992年“美国国家关…

硅基罗丹明铜离子荧光探针/烷氧基羰基取代硅基罗丹明衍生物

硅基罗丹明类荧光染料分子由于其良好的光谱学和化学性质&#xff0c;被应用于荧光探针的合成中。通过将罗丹明分子中的氧原子用硅原子进行取代&#xff0c;使其广谱范围红移&#xff0c;可以满足近红外荧光检测需求&#xff0c;同时保留了罗丹明染料诸多性质&#xff0c;如荧光…