我用Python爬取美食网站3032个菜谱并分析,没有我不会做的菜!

这是巨变的中国,人和食物,比任何时候走的更快。近日,J哥为了寻味中国,奔走于某五线城市的大街小巷,结果除了累,啥也没寻到。

于是,J哥默默打开了各大美食网站,如豆果美食、下厨房、美食天下等。经过甄选,最终爬取了豆果网最新发布的中国菜系共3032个菜谱,然后清洗数据并做可视化分析,试图走上美食博主的康庄大道。

数据获取

豆果美食网的数据爬取比较简单,如果您对爬虫感兴趣,可查看J哥往期原创文章「实战|手把手教你用Python爬虫(附详细源码)」,思路一致。

本文爬取的数据范围为川菜、粤菜、湘菜等八个中国菜系,包含菜谱名、链接、用料、评分、图片等字段。限于篇幅,仅给出核心代码。

 # 主函数
def main(x):url = 'https://www.douguo.com/caipu/{}/0/{}'.format(caipu,x*20)print(url)html = get_page(url)parse_page(html,caipu)if __name__ == '__main__':caipu_list = ['川菜', '湘菜','粤菜','东北菜','鲁菜','浙菜','湖北菜','清真菜'] #中国菜系start = time.time()  # 计时for caipu in caipu_list:for i in range(22):# 爬取多页main(x=i)time.sleep(random.uniform(1, 2))print(caipu,"第" + str(i+1) + "页提取完成")end = time.time()print('共用时',round((end - start) / 60, 2), '分钟')

数据清洗

短短几分钟就爬下了3032个菜谱信息,为了方便可视化分析,还需要对爬取的数据进行简单清洗。

本文数据清洗主要用到Python的Pandas库,如果您对Pandas感兴趣,可查看J哥往期原创专辑「Pandas基础系列」,共五篇。

导入数据

用pd.read方法导入爬取到的菜谱数据,并添加列名。

import pandas as pd
import numpy as np
df = pd.read_csv('/Users/spider_cook/cai.csv',names = ['菜谱','菜谱链接', '用料', '评分', '用户','图片','菜系'])
df.head()

删除重复项

爬虫过程中少量菜谱数据被重复抓取,需要用drop_duplicates方法删除。

df = df.drop_duplicates() 

缺失值处理

通过info方法发现少量记录含有缺失值,用dropna方法删除。

df.info()
df = df.dropna(axis=0, how='any')

评分字段清洗

爬取的评分字段含有多余的字符串且为object类型,需要替换多余字符串并转换为数字类型,方便后续计算。

df['评分'] = df['评分'].str.replace('分','').astype('float') #替换"分"为空,转换为浮点型

添加用料字段

为方便菜谱用料分析,需要根据用料字段计算出每个菜谱的用料数量。由于用料字段都是以逗号分隔,计算逗号数即可间接得到。

df['用料'] = df['用料'].str.replace(',',',')
df['用料数'] = df['用料'].str.count(',') + 1

预览数据

df.head()

数据可视化

本文数据可视化主要用到pyecharts库,它能轻松实现酷炫的图表效果。如果您对可视化感兴趣,可查看J哥往期原创文章「数据可视化分析系列」,涉及地产、电商、招聘等各领域。

菜谱评分分布

from pyecharts import options as opts
from pyecharts.charts import Page, Pie
cut = lambda x : '4分以下' if x < 4 else ('4.1-4.5分' if x <= 4.5 else('4.6-4.9分' if x <= 4.9 else '5分'))
df['评分分布'] = df['评分'].map(cut)
df2 = df.groupby('评分分布')['评分'].count()
df2 = df2.sort_values(ascending=False)
df2 = df2.round(2)
print(df2)
c = (Pie().add("",[list(z) for z in zip(df2.index.to_list(),df2.to_list())],radius=["20%", "80%"],# 圆环的粗细和大小rosetype='area' #玫瑰图).set_global_opts(title_opts=opts.TitleOpts(title="菜谱评分分布"),legend_opts=opts.LegendOpts(orient="vertical", pos_top="5%", pos_left="2%" ,textstyle_opts=opts.TextStyleOpts(font_size=14)# 左面比例尺),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18),))
c.render_notebook()

豆果美食网菜谱评分实行5分制。由上图可知,4分以下的菜谱占比不到2%,满分菜谱高达32.6%,可见用户对中国菜系菜谱评价普遍较高。

各菜系菜谱数量对比

from pyecharts import options as opts
from pyecharts.charts import Page, Pie 
df2 = df.groupby('菜系')['评分'].count() #按菜系分组,对评分计数
df2 = df2.sort_values(ascending=False) #降序
print(df2)
c = (Pie().add("", [list(z) for z in zip(df2.index.to_list(),df2.to_list())]).set_global_opts(title_opts=opts.TitleOpts(title="各菜系菜谱数量占比",subtitle="数据来源:豆果美食")).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}",font_size=18)))
c.render_notebook()

由上图可知,川菜和粤菜菜谱数量较多,显示出作为中国“八大菜系”成员的地位。湖北菜和清真菜菜谱数量较少,相对更为小众。

各菜系评分对比

from pyecharts.charts import Bar,Pie
from pyecharts import options as opts
df1 = df.groupby('菜系')['评分'].mean() #按菜系分组,对评分求平均
df1 = df1.sort_values(ascending=True) 
df1 = df1.round(2)
print(df1)
bar = Bar()
bar.add_xaxis(df1.index.to_list())
bar.add_yaxis("",df1.to_list()).reversal_axis() #X轴与y轴调换顺序
bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系平均评分",subtitle="数据来源:豆果美食"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改横坐标字体大小yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改纵坐标字体大小)
bar.set_series_opts(label_opts=opts.LabelOpts(font_size=16,position='right'))
bar.render_notebook()

由上图可知,各菜系评分非常接近,用户平均评分都在4.6分以上。相对一致的评分,导致通过用户评分来评价菜谱的可信度降低。

各菜系用料数量对比

from pyecharts.charts import Bar,Pie
from pyecharts import options as opts
df1 = df.groupby('菜系')['用料数'].mean() #按菜系分组,求用料均值
df1 = df1.sort_values(ascending=False) #降序
df1 = df1.round(0)
print(df1)
bar = Bar() 
bar.add_xaxis(df1.index.to_list())
bar.add_yaxis("用料数量",df1.to_list())
bar.set_global_opts(title_opts=opts.TitleOpts(title="各菜系用料数量",subtitle="数据来源:豆果美食"),xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=18)) #更改横坐标字体大小)
bar.set_series_opts(label_opts=opts.LabelOpts(font_size=16))
bar.render_notebook()

由上图可知,川菜和东北菜用料较足。川菜素有取材广泛、调味多、菜式多样等特点,虽然东北菜没有排在传统的“八大菜系”中,但豪迈热情的东北人从不吝啬菜肴里的用料。

粤菜更注重菜品的原味鲜香,具有清、鲜、爽、嫩、滑等特色,因此用料相对更少。清真饮食风俗源于伊斯兰教,部分食材属于禁忌物,因此用料也不多。

川菜用料分析

# 绘制词云图
text1 = get_cut_words(content_series=df[df['菜系']=='川菜']['用料'])
stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000,collocations=False,font_path='字酷堂清楷体.ttf',icon_name='fas fa-thumbs-up',size=653,output_name='./川菜.png')
Image(filename='./川菜.png') 

由川菜用料词云图可知,川菜主要用料包括花椒、豆瓣酱和干辣椒。不怕辣的四川人喜好种植花椒,四川火锅也因为有了花椒的加入更有吸引力,千千万万的海内外寻味者奔涌相随。

料实材真,一般都能出美味。川菜用料最足的菜谱为川味砂锅之足不出户的麻辣烫,共用料35种。

用料明细:毛肚,黄喉,鲜牛肉片,自制肉,鸭血,金针菇,平菇,豆芽,苕粉,冬笋片,白菜,莴笋叶,鹌鹑蛋(煮熟剥壳),猪骨汤,猪油,牛油,植物油(菜油上佳),姜片,大粒的蒜,郫县豆瓣,八角,茴香,桂皮,丁香,陈皮,香叶,白胡椒粉,冰糖,生抽,盐,葱结,花椒,干辣椒,鸡精丸,午餐肉

粤菜用料分析

由粤菜用料词云图可知,粤菜主要用料包括胡椒粉、五花肉和白糖。粤菜的圣地在顺德,粤菜注重质和味,口味相对清淡,力求清中求鲜、淡中求美。

粤菜用料最足的菜谱为广式肠粉,共用料23种。

用料明细:粉浆用料,粘米粉(米打的粉),澄面(小麦淀粉),土豆淀粉,粟米粉(玉米淀粉),水,酱汁用料,独头蒜,大蒜籽,姜片,香菜(不吃香菜的可用葱代替),鸡汤,鲜味生抽,老抽,蚝油,蜂蜜,鱼露(可不放),鸡精(个人喜欢就放,不放也很鲜了),水,肠粉里面放的料,肉末,鸡蛋,生菜叶

湘菜用料分析

由湘菜用料词云图可知,湘菜主要用料包括辣椒、大蒜、花椒等。辣不怕的湖南人以辣椒为生,尤其以剁椒出名。J哥虽不是湖南人,但在湖南待了几年后,目前也成了个胖子。美食虽美,可不要贪多哦~

湘菜用料最足的菜谱为麻辣卤鸭三件,共用料20种。

用料明细:鸭爪(清水泡一小时),鸭翅膀(清水泡一小时啊),鸭肠(洗干净后捆成一个个小捆),白芷,桂皮,香叶,大料(两个焯水用,三个卤用),干辣椒(根据个人喜辣程度放),小茴香,花椒,麻椒,草果,生姜(一块焯水去味用,一块卤用),蒜瓣(全部去皮),辣椒酱(根据个人喜辣放),老抽,生抽,料酒,白糖,盐

东北菜用料分析

由东北菜用料词云图可知,东北菜主要用料包括土豆、面粉、胡萝卜等。东北菜在做法上也融合了一些宫廷菜点和汉族饮食所长,利用东北特产原料和纯绿色食品原料。土豆和胡萝卜在黑土地的孕育下为东北菜源源不断输送着美味配方。

东北菜用料最足的菜谱为翡翠白菜水饺,共用料20种。

用料明细:面皮制作,面粉(绿色面团所用),面粉(白色面团所用),小白菜叶(取汁),清水,馅料制作,猪五花肉,大白菜,胡萝卜,葱碎,姜沫,盐,生抽,老抽,蚝油,芝麻油,糖,鸡精,花椒粉,花生油

湖北菜用料分析

由湖北菜用料词云图可知,湖北菜主要用料包括糯米、花椒、面粉等。千湖之省湖北坐落于江汉平原,同时作为重要的商品粮基地,从来不缺美食原料。

湖北菜用料最足的菜谱为家常美味——香菇鸡肉面,共用料23种。

用料明细:鸡脯肉或鸡腿肉,香菇,刀削面或宽面,芹菜,青菜,郫县红油豆瓣,葱,姜,蒜,干辣椒,花椒,八角,老抽,生抽,料酒,淀粉,蛋清,十三香,白胡椒,鸡精,盐,蒜苗,香菜

浙菜用料分析

浙菜主要用料包括白糖、冰糖、胡椒粉等。俗话说“上有天堂,下有苏杭”,素有鱼米之乡之称的浙江,赋予了浙菜丰富的原料。浙菜菜式小巧玲珑,菜品甜而不腻。

浙菜用料最足的菜谱为经典糖醋排骨,共用料17种。

用料明细:猪肋排,小葱段(煮排骨用),姜(煮排骨用),料酒(煮排骨用),冷水,绵白糖,米醋,香醋,老抽,盐,绵白糖(浇汁用),米醋(浇汁用),香醋(浇汁用),淀粉(浇汁用),温水(浇汁用),食用油,熟白芝麻

鲁菜用料分析

鲁菜主要用料包括面粉、胡萝卜、蚝油等。鲁菜讲究原料质地优良,以本地用料为主。作为我国第二大小麦主产区,能够为面粉的制作提供充足的储备,同时还盛产胡萝卜、大白菜等蔬菜,成为鲁菜常用的配菜来源。

就不一一展示了,所有的数据代码都有  想要的话就加下群:1136192749

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47272.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一年时间,拿到了人生中的第一个20万

目录 一、2021年度博客之星评选第二名二、博客新星导师三、哪吒社区四、粉丝群五、付费专栏六、Java学习路线总结&#xff0c;搬砖工逆袭Java架构师七、关于读书八、你好2023 一、2021年度博客之星评选第二名 2022年&#xff0c;是哪吒收获的一年&#xff0c;收获了人生中的第…

深圳潮汕肠粉店

转载于:https://www.cnblogs.com/wujiafeng/p/3416493.html

做个合格的吃货~利用Python爬取美食网站3032个菜谱并分析

导语&#xff1a; 这两天气温急剧下降&#xff0c;天冷的小编实在是不想出门&#xff0c;到了饭点~诶&#xff01;兴冲冲点开某团美滋滋点了个外卖!然后就是等了快两小时&#xff08;天气恶劣铁汁萌也要理解下外卖员下雪之后路面也滑咱也不要催单&#xff09;终于等到外卖结果…

作为潮汕人你了解肠粉么 附带家常肠粉做法

随着时代的变化年轻人们走出家乡在外奔波&#xff0c;但却忘不了家乡的味道&#xff0c;思思念念让我们来说一说家乡“惠来”的那些味道吧&#xff01; 肠 粉 关于肠粉的起源&#xff0c; 众说纷纭&#xff0c;没有统一的说法&#xff0c;有人说“最早是抗日战争时期由泮塘荷仙…

Alien Skin X7PS调色滤镜插件下载及PS调色滤镜教程

Alien Skin Exposure X7 PS是一款专业的图像编辑和后期处理软件&#xff0c;功能非常强大&#xff0c;但对新手不是很友好&#xff0c;比较难上手。今天就为大家介绍一款实用的调色滤镜插件&#xff0c;上手方便&#xff0c;操作简单&#xff0c;处理后的照片质量也很高&#x…

PS2023磨皮滤镜插件Portraiture人像美容

在PS后期修图中&#xff0c;有一个非常关键的步骤&#xff0c;那就是磨皮。磨皮的方法有很多种&#xff0c;但是其中最方便快捷的达到大片级效果的方法莫过于使用插件。 但是目前市面上PS磨皮插件众多&#xff0c;该怎么选择呢&#xff1f;经过多次磨皮效果对比&#xff0c;小…

不会PS图片怎么批量调色

现在很多实体制造业都转向线上&#xff0c;转向线上的第一步就是有自己的线上展示平台和微商城。小企业不能在一开始就能搭建好团队&#xff0c;那么非专业人士进行这种线下转线上&#xff0c;会有很多操作上问题。其中有个问题就是&#xff0c;不会PS图片怎么批量调色&#xf…

PS滤镜怎么调色,可以用ps滤镜插件调色

**品牌型号&#xff1a;**联想 E431 **系统&#xff1a;**Windows 10 19042 64位家庭版 **软件版本&#xff1a;**Alien Skin Exposure X7 在使用PS修图时&#xff0c;很多时候都会给照片添加滤镜。下面我就为大家介绍PS滤镜调色的方法和位置。 一、PS滤镜怎么调色 首先下…

JixiPix Hand Tint Pro for Mac(图片调色修图软件)

JixiPix Hand Tint是一款功能强大的图像处理软件&#xff0c;可以为用户带来丰富的图像效果和过滤器等服务&#xff0c;同时降低了图片处理的效率&#xff0c;没有PS操作复杂&#xff0c;小白新手也可以流畅使用。Hand Tint Pro还内置了丰富的特效和滤镜&#xff0c;只需要导入…

PS调色精灵ps插件

链接&#xff1a;https://pan.baidu.com/s/1fxoQSp2hDqwf5HXfhSXntA 提取码&#xff1a;ot42

Photoshop教程三:影调调色工具

文章目录 一、影调1.1 通过camera raw调节影响1.2 色阶工具1.3 曲线工具 二、氛围色调2.1 色彩平衡2.2 颜色分级2.3 可选颜色工具2.4 曲线色阶2.5 排除模式 三、其他辅助调色工具3.1 亮度对比度3.2 曝光度3.3 饱和度与自然饱和度3.4 黑白3.5 照片滤镜3.6 通道混合器3.7 LUT——…

portraiture4图片修图磨皮滤镜插件支持Win和Mac

像摄影爱好者和设计师&#xff0c;需要用PS后期修图&#xff0c;经常用到磨皮&#xff0c;磨皮的方法有很多&#xff0c;但最快最方便达到大片级效果的方法莫过于使用插件。 Portraiture磨皮插件就是一款非常智能的磨皮滤镜插件&#xff0c;支持Photoshop和Lightroom&#xff…

4种超好用的PS调色小技巧,知道的人不多!

学习ps的伙伴们都知道ps的强大之处就是图像合成和后期处理。但是专业的调色修片可能没有几年的功夫是不可能学明白的&#xff0c;但是掌握一些小技巧也可以轻松对图片偏色校正和调色。今天就跟大家分享一些快捷实用的好方法&#xff0c;希望对你们有所帮助&#xff01; 方法一&…

说说那些好用的图片调色软件

图片调色很多人都会用到&#xff0c;无论是专业摄影还是自己随手一拍&#xff0c;可能都会遇到色调不如意&#xff0c;想对图片的色调进行调整&#xff0c;那么哪款软件可以调色呢&#xff1f;下面我们就来看看几款好用的调色软件。 第一款&#xff1a;lr2021中文激活版 lr是…

ChatGPT for Robotics: Design Principles and Model Abilities翻译

摘要 本文介绍了一项有关使用OpenAI的ChatGPT以用于机器人技术应用的实验研究。我们概述了一个策略&#xff0c;该策略结合了提示工程的设计原理并创建了高级函数库&#xff0c;该函数库可以适应不同的机器人任务&#xff0c;模拟器和形态。我们主要关注对不同提示工程技术&am…

总结如何设计一款营销低代码可视化海报平台

背景 我所在的部门负责的是活动业务&#xff0c;每天都有很多的营销活动&#xff0c;随之而来的就是大量的H5活动页面。而这些H5活动已经沉淀出了比较固定的玩法交互&#xff0c;我们开发大多数的工作也只是在复制粘贴这种大量的重复工作。 在基于此背景下我开始了低代码平台…

我们来聊聊如何选择一家靠谱的学习机构

随着云时代的来临&#xff0c;大数据技术越来越受各位朋友的青睐&#xff0c;这其中不乏有很多是0基础的朋友&#xff0c;我相信大多数朋友都会考虑找一家靠谱的培训机构集中学习一段时间&#xff0c;从而进入大数据行业&#xff0c;因为这是最有效率的方式。那么在众多的机构中…

又有人因为买考研资料被骗!4种常见骗局曝光,第三种最可恶!

前短时间在微博上看到了一位伙伴&#xff0c;他就因为“被骗”陷入了无限自责当中&#xff1a; 到底因为什么被骗我们不去追问&#xff0c;但是就像“每年都有人忘带准考证”的新闻一样&#xff0c;“xxx因买考研资料被骗”、“xxx因买押题资料花了上千元”已经是考研人的“常规…

电脑城最简单骗局,仍然有无数人上当

今天在一个微信群中偶然看到有群友提起自己去电脑城买电脑的故事&#xff0c;这位朋友和我一样&#xff0c;也是搬砖程序员一枚&#xff0c;他说电脑城的业务员告诉他说&#xff1a;“你看上的那款电脑&#xff0c;不适合你&#xff0c;因为这个型号的电脑只能从应用市场下载软…

哎,开发又被骗了……

原来有朋友给我说&#xff1a;人性经不起考验。 但是我觉得还是诚信的人比较多的。 但是直到我又被鸽了…… 怎么说又&#xff1f; 上周开发&#xff0c;接了个活&#xff0c;做完了&#xff0c;鸽我了。 不过这次鸽的我更心寒了。 前两天&#xff0c;有个粉丝私信我&#xff0…