ChatGPT 聚类嵌入

我们使用简单的 k-means 算法来演示如何进行聚类。 聚类可以帮助发现数据中有价值的、隐藏的分组。 数据集在 Obtain_dataset Notebook 中创建。

# imports
import numpy as np
import pandas as pd# load data
datafile_path = "./data/fine_food_reviews_with_embeddings_1k.csv"df = pd.read_csv(datafile_path)
df["embedding"] = df.embedding.apply(eval).apply(np.array)  # convert string to numpy array
matrix = np.vstack(df.embedding.values)
matrix.shape
(1000, 1536)

1. 使用 K-means 找到聚类

我们展示了 K-means 的最简单用法。 您可以选择最适合您的用例的聚类。

from sklearn.cluster import KMeansn_clusters = 4kmeans = KMeans(n_clusters=n_clusters, init="k-means++", random_state=42)
kmeans.fit(matrix)
labels = kmeans.labels_
df["Cluster"] = labelsdf.groupby("Cluster").Score.mean().sort_values()
/Users/ted/.virtualenvs/openai/lib/python3.9/site-packages/sklearn/cluster/_kmeans.py:870: FutureWarning: The default value of `n_init` will change from 10 to 'auto' in 1.4. Set the value of `n_init` explicitly to suppress the warningwarnings.warn(
Cluster
0    4.105691
1    4.191176
2    4.215613
3    4.306590
Name: Score, dtype: float64
from sklearn.manifold import TSNE
import matplotlib
import matplotlib.pyplot as plttsne = TSNE(n_components=2, perplexity=15, random_state=42, init="random", learning_rate=200)
vis_dims2 = tsne.fit_transform(matrix)x = [x for x, y in vis_dims2]
y = [y for x, y in vis_dims2]for category, color in enumerate(["purple", "green", "red", "blue"]):xs = np.array(x)[df.Cluster == category]ys = np.array(y)[df.Cluster == category]plt.scatter(xs, ys, color=color, alpha=0.3)avg_x = xs.mean()avg_y = ys.mean()plt.scatter(avg_x, avg_y, marker="x", color=color, s=100)
plt.title("Clusters identified visualized in language 2d using t-SNE")
Text(0.5, 1.0, 'Clusters identified visualized in language 2d using t-SNE')

二维投影中簇的可视化。 在此运行中,绿色集群 (#1) 似乎与其他集群完全不同。 让我们看看每个集群的一些样本。

2.簇中的文本样本和命名簇

让我们展示来自每个集群的随机样本。 我们将使用 text-davinci-003 来命名集群,基于来自该集群的 5 条评论的随机样本。

import openai# Reading a review which belong to each group.
rev_per_cluster = 5for i in range(n_clusters):print(f"Cluster {i} Theme:", end=" ")reviews = "\n".join(df[df.Cluster == i].combined.str.replace("Title: ", "").str.replace("\n\nContent: ", ":  ").sample(rev_per_cluster, random_state=42).values)response = openai.Completion.create(engine="text-davinci-003",prompt=f'What do the following customer reviews have in common?\n\nCustomer reviews:\n"""\n{reviews}\n"""\n\nTheme:',temperature=0,max_tokens=64,top_p=1,frequency_penalty=0,presence_penalty=0,)print(response["choices"][0]["text"].replace("\n", ""))sample_cluster_rows = df[df.Cluster == i].sample(rev_per_cluster, random_state=42)for j in range(rev_per_cluster):print(sample_cluster_rows.Score.values[j], end=", ")print(sample_cluster_rows.Summary.values[j], end=":   ")print(sample_cluster_rows.Text.str[:70].values[j])print("-" * 100)
Cluster 0 Theme:  All of the reviews are positive and the customers are satisfied with the product they purchased.
5, Loved these gluten free healthy bars, saved $$ ordering on Amazon:   These Kind Bars are so good and healthy & gluten free.  My daughter ca
1, Should advertise coconut as an ingredient more prominently:   First, these should be called Mac - Coconut bars, as Coconut is the #2
5, very good!!:   just like the runts<br />great flavor, def worth getting<br />I even o
5, Excellent product:   After scouring every store in town for orange peels and not finding an
5, delicious:   Gummi Frogs have been my favourite candy that I have ever tried. of co
----------------------------------------------------------------------------------------------------
Cluster 1 Theme:  All of the reviews are about pet food.
2, Messy and apparently undelicious:   My cat is not a huge fan. Sure, she'll lap up the gravy, but leaves th
4, The cats like it:   My 7 cats like this food but it is a little yucky for the human. Piece
5, cant get enough of it!!!:   Our lil shih tzu puppy cannot get enough of it. Everytime she sees the
1, Food Caused Illness:   I switched my cats over from the Blue Buffalo Wildnerness Food to this
5, My furbabies LOVE these!:   Shake the container and they come running. Even my boy cat, who isn't 
----------------------------------------------------------------------------------------------------
Cluster 2 Theme:  All of the reviews are positive and express satisfaction with the product.
5, Fog Chaser Coffee:   This coffee has a full body and a rich taste. The price is far below t
5, Excellent taste:   This is to me a great coffee, once you try it you will enjoy it, this 
4, Good, but not Wolfgang Puck good:   Honestly, I have to admit that I expected a little better. That's not 
5, Just My Kind of Coffee:   Coffee Masters Hazelnut coffee used to be carried in a local coffee/pa
5, Rodeo Drive is Crazy Good Coffee!:   Rodeo Drive is my absolute favorite and I'm ready to order more!  That
----------------------------------------------------------------------------------------------------
Cluster 3 Theme:  All of the reviews are about food or drink products.
5, Wonderful alternative to soda pop:   This is a wonderful alternative to soda pop.  It's carbonated for thos
5, So convenient, for so little!:   I needed two vanilla beans for the Love Goddess cake that my husbands 
2, bot very cheesy:   Got this about a month ago.first of all it smells horrible...it tastes
5, Delicious!:   I am not a huge beer lover.  I do enjoy an occasional Blue Moon (all o
3, Just ok:   I bought this brand because it was all they had at Ranch 99 near us. I
----------------------------------------------------------------------------------------------------

请务必注意,集群不一定与您打算使用它们的用途相匹配。 大量的聚类将关注更具体的模式,而少量的聚类通常会关注数据中最大的差异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15535.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI 禁用 ChatGPT 中的“使用 Bing 浏览”功能:发生了什么?

令人惊讶的是&#xff0c;OpenAI决定在其流行的聊天机器人ChatGPT中禁用“使用Bing浏览”功能。这一决定引起了ChatGPT用户的质疑。用户已经习惯于使用这种网络浏览功能。OpenAI尚未提供重新激活该功能的具体时间表。但他们向用户保证&#xff0c;他们正在努力使其重新上线。 O…

Stack Overflow临时禁用ChatGPT生成内容,网友:人类和AI快打起来!

衡宇 Alex 发自 凹非寺量子位 | 公众号 QbitAI AI届当红炸子鸡ChatGPT&#xff0c;刚刚被程序员问答社区Stack Overflow禁用了&#xff01; 芜湖&#xff0c;难道是因为有人感慨&#xff0c;ChatGPT非常强大&#xff0c;可以取代Stack Overflow&#xff1f; 但其实&#xff0c;…

Git-用 cherry-pick 挑好看的小樱桃

前篇 在此之前&#xff0c;我想问一个问题&#xff0c;你是在接触 Git 多久之后&#xff0c;知道有这个命令的&#xff1f; 我的答案是很久很久之后&#xff0c;这真是一个悲伤的故事。懒&#xff0c;是万恶之源&#xff0c;此话果然不假。 cherry-pick 能干啥&#xff1f; c…

亲测10月最新影视流量主小程序源码+卡密系统

正文: 这是一款最新影视小程序&#xff0c;支持官解和卡密系统&#xff0c;也有仿封系统&#xff0c;独立API后台然后对接的苹果cms&#xff0c;亲测可以使用&#xff0c;搭建也比较简单。 只搭建了后台&#xff0c;前台换接口看教程上写的还得再搭建个苹果CMS&#xff0c;就…

微猫恋爱聊妹术V2 4.1.0 小程序源码-多开版-附安装教程

微猫恋爱聊妹术V2 4.1.0 小程序源码-多开版-附安装教程 源码介绍&#xff1a; 一.后台&#xff1a; 1.全新独立后台大更新&#xff0c;让操作更简单&#xff01; 2.新增智能客服消息功能&#xff1a; a.关键字客服消息支持多信息触发&#xff08;已达官方最多限制可同时触发…

2021最火南风表情包最新微信小程序源码+带采集+流量主+前后端完整版+免费下载+附安装教程无加密源码

源码介绍&#xff1a; 南风表情包微信小程序源码&#xff0c;网传最火表情包小程序源码&#xff0c;带有独立版完整后台 API、小程序前端&#xff0c;并附带安装搭建说明。最近很火的表情包小程序源码&#xff0c;亲测完整无错&#xff0c;有大量的数据。搭建即可使用。话不多…

最新表情包小程序+前后端去授权版/最火表情包小程序源码

最新表情包小程序前后端去授权版&#xff0c;最火表情小程序源码&#xff0c;本次分享的是一套二开的小程序前端&#xff0c;新增了举牌表情生成、去掉了隐藏的授权以及一些BUG修复&#xff0c;本站亲测完美可用。 具体教程见包内说明&#xff0c;以下是亲测截图&#xff1a; …

贪心 135. 分发糖果

135. 分发糖果 难度困难1086 n 个孩子站成一排。给你一个整数数组 ratings 表示每个孩子的评分。 你需要按照以下要求&#xff0c;给这些孩子分发糖果&#xff1a; 每个孩子至少分配到 1 个糖果。相邻两个孩子评分更高的孩子会获得更多的糖果。 请你给每个孩子分发糖果&am…

抖音快手微信QQ壁纸小程序表情包小程序流量主广告源码搭建详细教程

​ 切记&#xff01;不要自作聪明&#xff01; 请仔细通读本文档再安装&#xff0c;不然报错会让你抓狂&#xff01;即使你对PHP非常熟悉&#xff0c;对uniapp非常熟悉&#xff0c;也必须通读文档&#xff0c;严格遵守文档的所写的&#xff0c;不然100%有报错&#xff0c;绝无…

【精选】表情包斗图小程序(可引流,开通流量主,权益外卖cps,带pc后台管理)

牛云表情包斗图小程序&#xff0c;流量主变现&#xff0c;外卖cps权益变现&#xff0c;uniCloud云开发无需购买服务器和域名&#xff0c;助力每一位内容创业者。 技术优势 基于 uniapp uniCloud 研发&#xff0c;无需购买服务器和域名&#xff0c;uniCloud 是 DCloud 联合阿…

小狐狸ChatGPT付费创作系统1.57独立开源版 + 小程序VUE前端+APP端 最全安装配置教程

小狐狸GPT付费体验系统最新版系统是一款基于ThinkPHP框架开发的AI问答小程序&#xff0c;是基于国外很火的ChatGPT进行开发的Ai智能问答小程序。播播资源技术小编经过系统测试系统完全开源&#xff0c;即可拥有自己的GPT&#xff01;整体测试下来非常完美&#xff0c;可以说小狐…

微信点餐小程序项目 --- 干饭人联盟(开源、免费)

参考项目。做了一点改动和完善。 项目源码。还有具体配置方法、sql脚本文件、API接口开发文档、数据库详细说明。 ①技术栈&#xff1a; 前端&#xff1a; 微信小程序原生框架 weui 后端&#xff1a;node.jsexpress 数据库&#xff1a;mysql ②效果&#xff1a; ③说明 1…

ChatGPT被淘汰了?Auto-GPT到底有多强

大家好&#xff0c;我是可夫小子&#xff0c;关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。 说Auto-GPT淘汰了ChatGPT了&#xff0c;显然是营销文案里面的标题党。毕竟它还是基于ChatGPT的API&#xff0c;某种意义只是基于ChatGPT能力的应用。但最近&#xff0c;Auto…

ChatGPT基础组件Transformer的代码实现(纯净版Transformer实现)

最近ChatGPT大火&#xff0c;其实去年11月份就备受关注了&#xff0c;最近火出圈了&#xff0c;还是这家伙太恐怖了&#xff0c;未来重复性的工作很危险。回归主题&#xff0c;ChatGPT就是由无数个&#xff08;具体也不知道多少个&#xff0c;哈哈哈哈&#xff09;Transformer语…

比特币将成为人工智能的首选货币

在这篇文章中&#xff0c;Arthur Hayes将阐述为什么中本聪的创造将成为人工智能的首选货币。我将把我的论点作为一系列逻辑结论来提出&#xff0c;这些结论相互基础&#xff0c;以「证明」人工智能将选择比特币作为其经济行为的计价货币。 原文作者&#xff1a;Arthur Hayes 原…

马斯克 xAI 誓师大会,2029实现AGI!12 人创始天团揭秘 xAI 终极目标

今天马斯克和 xAI12 人创始团队开了一个誓师大会&#xff0c;详述了公司的远景目标和运营方向&#xff0c;希望在 2029 年实现 AGI。 今天马院士「开源」了 xAI 的第一次重要会议&#xff01; 擅长在公司使命上「画大饼」的马院士&#xff0c;在这次会议上和创始团队讨论了很多…

为什么越来越多的网工运维_测试转行网络安全?

最近越来越多的网工运维小伙伴都在吐槽&#xff1a;干网工、运维多年&#xff0c;薪资还是5.6K&#xff0c;技术也遇瓶颈上不去&#xff0c;考虑转岗或者转行。其中大部分的网工运维小伙伴们纷纷瞄准了高薪高前景的网络安全工程师岗位 网络安全是怎样的岗位&#xff1f; 人才…

博泰应宜伦:把Vision Pro放大二十倍,就是未来汽车的终极形态

作者 | Amy 编辑 | 德新 新能源是上半场&#xff0c;智能化是下半场。 而随着智能汽车发展&#xff0c;智能座舱也不断革新&#xff0c;过去智能座舱的各项功能全面开花&#xff0c;竞争愈演愈烈&#xff0c;未来的座舱将如何被定义&#xff1f; 6月15日&#xff0c;博泰车联…

python爬虫入门

基础回顾 使用函数, 先导入, 直接点方法名使用 import math m math.log10(100) print(m)python 交互模式 input输入示例 age int(input("请输入年龄")) age 1 print(age)if else 的使用 和java一样, 只是不加括号, else if 阉割成了 elif 与或非 java : &am…

AI落地:儿童节贺卡

昨天有个朋友Lisa找到我&#xff0c;她是幼儿园的老师&#xff0c;看到我最近搞了个爱落地星球&#xff0c;在研究各行各业AI落地的事情&#xff0c;问我能不能用AI帮她写一百多张贺卡。 说起来写贺卡&#xff0c;我只会写“节日快乐”。现在有了ChatGPT&#xff0c;那就大不一…