自训练和增量训练word2vec模型

1、自己准备训练语料文件

根据自己的业务场景准备训练数据，比如用户在商城上的同购行为序列或同浏览行为序列。

我们希望通过自己训练业务相关的语料word2vec模型来获得词嵌入、词相关性查询等。

1.1 准备语料库文件

# 示例：准备自己的一个大规模的语料库文件
df = spark.sql("""
select hist_item_seq from dmb_dev.dmb_dev_item_sku_sequencewhere item_seq_len >=2group by hist_item_seq
""")
df.show(6, False)corpus_file = 'large_corpus_sku_name.txt'
df.toPandas().to_csv(corpus_file, sep=' ', index=False, mode='w',header=False )

"五粮液 金密鉴 52度浓香型高度白酒 500ml 五粮液红密鉴（陈酿）6瓶整箱装,五粮液 金密鉴 52度浓香型高度白酒 500ml 五粮液红密鉴（
陈酿）6瓶整箱装,五粮液（WULIANGYE）酒五粮液密鉴浓香型白酒礼盒白酒整箱口粮酒送礼收藏宴请佳品 52度 500mL 6瓶 红密鉴,五粮液（W
ULIANGYE）酒五粮液密鉴浓香型白酒礼盒白酒整箱口粮酒送礼收藏宴请佳品 52度 500mL 6瓶 红密鉴"
"珍酒贵州珍酒 珍十五 2021年份酒 53度酱香型白酒 送礼商务 53%vol 500mL 6瓶 整箱装,珍酒贵州珍酒 珍十五 2021年份酒 53度酱香型白
酒 送礼商务 53%vol 500mL 6瓶 整箱装,珍酒珍十五 酱香型白酒整箱装 53度 500ml*6瓶酒中珍品 大曲坤沙"
"茅台（MOUTAI） 汉酱酒 酱香型白酒 51度 500ml*6瓶 整箱装,习酒贵州习酒 53度 圆习酒 老习酒 500ml*6  整箱装  酱香型白酒,剑南春 
水晶剑 浓香型白酒 喜宴名酒 38度 500mL 6瓶 整箱装"
"洋河 蓝色经典 天之蓝 42度 520ml*6瓶 整箱装 绵柔浓香型白酒 送礼,洋河【官方授权】蓝色经典 口感绵柔浓香型500ml*2瓶白酒 梦之蓝M3 45度 礼盒装,洋河 梦之蓝M3 45度 500ml*2瓶 礼盒装 绵柔浓香型白酒,洋河梦之蓝M3  52度 500ml*2瓶 礼盒装 绵柔浓香型白酒,洋河
之蓝M3  52度 500ml*2瓶 礼盒装 绵柔浓香型白酒"
"五粮液股份 五粮春 浓香型四川宜宾白酒粮食酒 五粮春 45度  500ml*6瓶整箱,五粮液股份 五粮春 浓香型四川宜宾白酒粮食酒 五粮春 45
度  500ml*6瓶整箱,洋河 梦之蓝M6+ 52度 550ml*2瓶 礼盒装 绵柔浓香型白酒"
"茅台（MOUTAI）53度500ml贵州茅台酒 飞天茅台,茅台（MOUTAI）53度500ml贵州茅台酒 飞天茅台 2023单瓶500ML,茅台（MOUTAI）贵州茅台
酒 飞天茅台礼盒 53度 酱香型白酒 500ml*2两瓶装"

2、全量自训练word2vec模型

2.1 读取语料文件

# 定义函数来读取语料库文件
def read_corpus(file_path):lines = []with open(file_path, 'r', encoding='utf-8') as f:for i, line in enumerate(f):lines.append(line.replace('"','').replace(' ','').strip().split(','))  # 每行按,分割好了return linescorpus = read_corpus(corpus_file)
corpus[:5]

2.2 训练 Word2Vec 模型

# 设置 Word2Vec 模型的参数
vector_size = 20  # 设置词向量的维度
window = 5  # 窗口大小，控制上下文窗口的大小
min_count = 2  # 最小词频，过滤掉低频词
sg = 0  # 0表示使用 CBOW 模型，1示使用 Skip-Gram 模型# 训练 Word2Vec 模型
model = Word2Vec(corpus, vector_size=vector_size, window=window, min_count=min_count, sg=sg)

2.3 保存和读取模型

# 保存训练好的模型
model.save('word2vec_model_1batch_train_sku_name.w2v')# 模型加载
import gensim
model1 = gensim.models.word2vec.Word2Vec.load('word2vec_model_1batch_train_sku_name.w2v').wv
model1.similarity('茅台贵州茅台53度飞天茅台500ml*1瓶酱香型白酒单瓶装', '剑南春 水晶剑 52度 500ml*6瓶  浓香型白酒 整箱装')

2.4 查看TopN相似和词与词之间的相似系数

# 查看商品 TopN 相似性商品
model.wv.most_similar('国台 十五年 酱香型白酒 53度 500ml单瓶装 15酱酒 茅台镇纯粮食酱酒', topn=10)for item_ta in ['茅台贵州茅台53度飞天茅台500ml*1瓶酱香型白酒单瓶装', '剑南春 水晶剑 52度 500ml*6瓶  浓香型白酒 整箱装']:# 查看print("\n%s商品 TopN 相似性商品为: "%item_ta)print(model.wv.most_similar(item_ta, topn=10))

2.5 获取用户向量

# 获取用户向量
model.wv['茅台贵州茅台53度飞天茅台500ml*1瓶酱香型白酒单瓶装']

3、增量训练word2vec模型

3.1 增量训练

from gensim.models import Word2Vec
import logging# 设置日志级别以便查看进度
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)# 假设有一个大规模的语料库文件
corpus_file = 'large_corpus_sku_name.txt'# 定义 Word2Vec 模型的参数
vector_size = 100  # 词向量维度
window = 5  # 窗口大小
min_count = 5  # 最小词频，过滤掉低频词
workers = 4  # 使用多少个 CPU 核心来训练模型# 初始化空的 Word2Vec 模型
model = Word2Vec(vector_size=vector_size, window=window, min_count=min_count, workers=workers)# 逐步加载和训练数据
def read_and_train_model(model, corpus_file, chunk_size=10000):with open(corpus_file, 'r', encoding='utf-8') as f:lines = []for i, line in enumerate(f):lines.append(line.strip().replace('"','').split(','))  # 假设每行已经分好词了，按空格分割if i > 0 and i % chunk_size == 0:if model.corpus_count == 0:# 第一次建立词汇表model.build_vocab(lines)else:# 更新词汇表model.build_vocab(lines, update=True)# 训练模型model.train(lines, total_examples=len(lines), epochs=model.epochs)# 清空 lines 列表，以便下一个批次数据lines = []# 处理最后一个不完整的数据块if lines:if model.corpus_count == 0:model.build_vocab(lines)else:model.build_vocab(lines, update=True)model.train(lines, total_examples=len(lines), epochs=model.epochs)# 开始增量学习
read_and_train_model(model, corpus_file)# 保存训练好的模型
model.save('word2vec_model_increase_train_sku_name.w2v')

3.2 查看商品 TopN 相似性商品

# 查看商品 TopN 相似性商品
model.wv.most_similar('茅台（MOUTAI）53度飞天酱香型白酒500ml单瓶装', topn=10)

4、模型局限性: 不能识别不在语料库中的词

5、解决方法：使用fasttext模型

5.1 fasttext模型训练

from gensim.models import FastText
# 模型训练
model = FastText(vector_size=20, window=3, min_count=1)  # instantiate
model.build_vocab(corpus_iterable=corpus)
model.train(corpus_iterable=corpus, total_examples=len(corpus), epochs=10) #或者
model2 = FastText(vector_size=20, window=3, min_count=1, sentences=common_texts, epochs=10)

5.2 查询不在词库中的词向量

print(model.wv['【浓香】五粮液甲辰龙年纪念酒（5瓶装）'])
print(model.wv.most_similar('【浓香】五粮液甲辰龙年纪念酒（5瓶装）', topn=10))

到这里虽然能解决不在词库中词的词向量查询问题，但高相关词(商品)的检索又变得有偏了，缺乏一定的多样性。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/384931.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

自训练和增量训练word2vec模型

1、自己准备训练语料文件

1.1 准备语料库文件

2、全量自训练word2vec模型

2.1 读取语料文件

2.2 训练 Word2Vec 模型

2.3 保存和读取模型

2.4 查看TopN相似和词与词之间的相似系数

2.5 获取用户向量

3、增量训练word2vec模型

3.1 增量训练

3.2 查看商品 TopN 相似性商品

4、模型局限性: 不能识别不在语料库中的词

5、解决方法：使用fasttext模型

5.1 fasttext模型训练

5.2 查询不在词库中的词向量

相关文章

ASP.NET MVC

C++如何在main函数开始之前(或结束之后)执行一段逻辑？

【计算机网络】数据链路层实验

C++内存管理(候捷)第五讲笔记

栈和队列＜数据结构 C版＞

HTML常用的转义字符——怎么在网页中写“＜div＞＜/div＞”？

计算机网络（Wrong Question）

Qt源码交叉编译带openssl的Qt版本

SQL123 SQL类别高难度试卷得分的截断平均值

【网络安全的神秘世界】文件包含漏洞

【数据结构】哈希表的模拟实现

自动驾驶-机器人-slam-定位面经和面试知识系列05之常考公式推导（02）

AI大模型大厂面试真题:「2024大厂大模型技术岗内部面试题+答案」

C# Task.WaitAll 的用法

Lombok的认识

LIS系统源码，实验室管理信息系统LIS，.Net C#语言开发，支持DB2，Oracle，MS SQLServer等主流数据库

【笔记：3D航路规划算法】二、RRT*

人工智能技术的分析与探讨

初识git工具~~上传代码到gitee仓库的方法

大模型额外篇章三：vercel搭建openai中转服务器

自训练和增量训练word2vec模型

1、自己准备训练语料文件

1.1 准备语料库文件

2、全量自训练word2vec模型

2.1 读取语料文件

2.2 训练 Word2Vec 模型

2.3 保存和读取模型

2.4 查看TopN相似和 词与词之间的相似系数

2.5 获取用户向量

3、增量训练word2vec模型

3.1 增量训练

3.2 查看商品 TopN 相似性商品

4、模型局限性: 不能识别不在语料库中的词

5、解决方法：使用fasttext模型

5.1 fasttext模型训练

5.2 查询不在词库中的词向量

相关文章

2.4 查看TopN相似和词与词之间的相似系数