数据开源 | 跨境电商场景中日平行语料1000

如果问近两年最热的概念,相信不少人会回答:元宇宙。但元宇宙到底是什么,目前还尚未有明确定义。广义来说,元宇宙是一个视觉图像丰富的虚拟空间,在这个空间中人们可以工作、娱乐、购物、社交等。

你可以想像自己真的“存在”于一个虚拟的世界中,不仅可以订制自己的化身 (Avatar),还能够拥有数位资产,从而可以与来自全世界不同地区、不同肤色、不同语种的伙伴进行互动交流。

跨境电商中的虚拟人

如今元宇宙已经渗透到各行各业,从游戏到影视,从客服到电商,从主播到艺术界、旅游界等等,仿佛一夜之间我们的生活离不开元宇宙的加持。

而提到元宇宙的商业前景和发展,虚拟人绝对会占有一席之地。各类虚拟人不断跨界,不仅成功变身新一代IP偶像,甚至不乏影视明星和歌手。其中,电商领域客服则是虚拟人营业最多的场景之一,也是我们经常在购物APP中见到的7x24小时在线的电商小姐姐小哥哥。

目前国内各大电商平台的竞争已进入白热化,众多电商平台开始布局跨境电商。11月24日,国务院批复同意在廊坊市、沧州市、运城市等33个城市和地区设立跨境电子商务综合试验区。这是中国设立的第七批跨境电子商务综合试验区。此次扩围之后,中国跨境电子商务综合试验区数量达到165个,覆盖31个省份。这也体现了国家对于跨境电商的大力支持。

跨境电商的沟通挑战

困扰跨境电商发展的重要问题之一在于语言,采用多语系直播人员会大幅增加企业的资金成本和时间成本投入。而虚拟人则体现出其独有的强大优势,比真人效率高、待机时间长、可复用性强,具有巨大的商业潜力。

虚拟人主流的对话功能主要依赖自动语音识别、自然语言处理、自动语音合成技术。目前这三种技术都是依赖深度学习模型,需要经过大量数据的训练,才能够得到可以识别和合成文本、语音的虚拟人。

而训练掌握双语种甚至多语种的虚拟人,需要多语种的平行语料。平行语料库是由原文文本及其平行对应的译语文本构成的双语或多语语料库。其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有单向平行语料库、双向平行语料库和多向平行语料库等三种形式。平行语料库指库中的两种或多种文本互相是对方的译文,可以用于翻译或者机器翻译研究。

但是由于平行语料采集比单一语种语料库需要更加高级的采录人员,投入更多的时间和财力成本,因此非常稀缺。很多基于平行语料研究的自动语音识别、自然语言处理、语音合成技术的研究和落地,都因为数据的缺乏,没能得到很好的推进和执行。

数据开源 | 跨境电商场景中日平行语料库

为更好的助力跨境电商虚拟人客服的发展,本次Magic Data开源跨境电商场景下的中日平行语料库,为模型训练提供帮助。本次开源1000+中日平行语料数据集,文本内容选自电商平台。数据类别丰富多样,包含如数码产品、衣帽服饰、儿童玩具、美发美妆等多种商品种类。数据题材涉猎广泛,包含商品标题、产品说明、用户评价、商户问答等。文本由日本本国译员完成,并由在日华人进行校对,适用于零售场景的机器翻译领域。

 开源数据集下载:NLP_Chinese-Japanese Parallel Corpus - E-Commerce - MagicHub 

海量数据的开源是众多科研工作者的诉求,希望通过开源数据激发技术的革新,促进行业进步。

MagicHub 开源社区 MagicHub - Datasets Download | Open-Source Datasets 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/60104.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多语言商城翻译外贸跨境电商多商户商城系统多商家多语言商城一键铺货采集

多语言商城翻译外贸跨境电商多商户商城系统多商家多语言商城 1.可切换多国语言,可在面板中添加/删除 2.支持多国货币,费率自动转换 3.多语言产品搜索引擎,支持任何语言搜索 4.优化前端加载速度 5.产品搜索引擎自动推送类似产品 6.智能购…

WhatsApp聊天机器人推动跨境电商销售的五种方式

关键词:WhatsApp聊天机器人、跨境电商销售 WhatsApp 聊天机器人可以帮助跨境电商品牌产生潜在客户、回答常见问题、交叉和向上销售以及提供全天候客户支持。自成立以来,跨境电商行业在人工智能革命性技术进步和不断变化的用户行为的引领下,正…

使用亮数据Bright Data解决出境电商问题

目录 一、出境电商的困境和问题1、困境一:获取准确的市场数据(1)数据的时效性和可靠性(2)数据的全面性和多样性(3)数据的实时更新和持续监测 2、困境二:克服地域限制和语言障碍&…

改善电商实时聊天体验的 5 大方法

今天,大多数网站都提供实时聊天支持作为选项。这是因为客户压倒性地将实时聊天列为他们的首选联系方式。 高达86%的消费者愿意在更好的客户体验上花费更多,但只有1%的人的期望始终得到满足,对于能够正确进行实时聊天的品牌来说,这…

淘宝天猫CTO若海:沉浸式的消费体验是下一步发力方向

​每年双 11 开卖的那一刻,千万用户同时在线下单,那个瞬间服务器的压力是平时流量的数百倍,淘宝系统是否能够稳定支撑,是每年所有人关注的热点话题。 时至今日,丝般顺滑已经逐渐成为稳态。从今年开始,双 11…

客户端和服务器不支持常用的SSL协议版本或密码套件

前言: 最近在访问华为设备时遇到的一个报错,找了很多复杂的方法都没解决,最后用这个简单的办法解决了,希望能帮助到你们。 报错截图: 报错解决: 把想访问的网址添加进去即可,有效访问时间为一…

炸裂!GPT-4 开始自主进化,打造一个虚拟世界!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 此前 GitHub 曾诞生过一个名为 Auto-GPT 的开源项目,让 AI 能够根据人类给出的目的,自动设定任务的优先级,尝试自行优化代码、自动改 Bug 等操作。不得不…

你的业务被AI所取替的风险度有多高?AI社交、克隆人、角色扮演、代理人

hi,大家好,最近我们陆续会推出各种实验性项目,把我们在AIGC和数字体验上的思考进行验证,欢迎持续关注我们的进展。(文末领取PDF) 目前,已经有不少的例子证明了ChatGPT有多好用了。 亚马逊员工在…

FastChat(小羊驼模型)部署体验

简介 前段时间,斯坦福发布了Alpaca,是由Meta的LLaMA 7B微调而来,仅用了52k数据,性能可以与GPT-3.5匹敌。 FastChat集成了Vicuna、Koala、alpaca、llama等开源模型,其中Vicuna号称能够达到gpt-4的90%的质量&#xff0…

开源模型:小羊驼(Vicuna-13B),可达chatGPT九成效果。

参考链接:https://mp.weixin.qq.com/s/OK5NLLVSBLb-4QsnqGp45g 文章目录 简要介绍模型介绍数据来源模型评估方法模型局限性模型总体评价 简要介绍 以 Meta 开源 LLaMA(直译为「大羊驼」)系列模型为起点,研究人员逐渐研发出基于LL…

EPROM 的发明者出生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 28 日,在 1897 年的今天,意大利数学家布拉里福蒂在巴洛摩数学会上提出了的悖论,这个悖论表达了布拉里对于序数理论的质…

chatgpt赋能python:如何用Python写手机软件

如何用Python写手机软件 Python作为一种高级编程语言,越来越受到开发者的欢迎。这篇文章将会向您介绍如何使用Python来编写手机软件。 简介 Python是一个面向对象的编程语言,它可以在各种不同的计算机平台上运行,包括移动设备和智能手机。…

chatgpt赋能python:Python如何访问手机:探索移动端SEO优化的新途径

Python如何访问手机:探索移动端SEO优化的新途径 随着移动互联网的快速发展,移动端成为了各大搜索引擎的竞争焦点。对于SEO优化工程师而言,探索移动端SEO优化的新途径显得尤为关键。而Python作为一种强大的编程语言,在移动端SEO优…

考研英语 大作文模板

考研英语 大作文模板 内容来自有道考神陈曲老师 公众号: 陈曲老师 大作文 模板框架 As is vividly but subtly(symbolically) depicted in the cartoon/portrayal/photo that __.(描图 In contrast)Obviously, what the artist/picture tries to convey is well reflected/mi…

《复盘》思维导图

最近看了《复盘》这本书,有些方法论不错,做了个思维导图,要原图的留邮箱。

如何做好复盘工作

复盘是一种通用方法,兼顾成功经验的传承和失败教训的汲取。 复盘即可以用在每日的工作中、项目的管理中,也可以用在我们日常生活中。 复盘有什么价值 把失败转化为财富把成功转化为能力 如何复盘 11

团队复盘指南

很多团队的工作是没有成功经验可以借鉴的,而竞品的成功经验也很少能公开分享,所以多数情况下只能靠团队自己摸索。面对这种情况,团队复盘工作就格外重要。 为什么要复盘 复盘的功效:增强训练效果;打造执行力&#xf…

[思维模式-13]:《复盘》-1- “知”篇 - 认识复盘

目录 前言 一、什么是复盘 二、复盘的三个关键词 三、复盘,而非总结 四、复盘的优势与局限 五、复盘与行动学习、培训、绩效改进的区别与联系 六、关于复盘的几个常见误解 误解1:可否对他人之事进行复盘 误解2:“项目后评估”是复盘吗…

【好用】大厂项目复盘:复盘不是终点,而是一个新的起点。

“ 复盘,最开始是围棋术语,即把下过棋的步骤重新演练一遍,分析当时下棋时的思考过程和优劣势。而现在,这个词语被用到各个领域。在工作中复盘,是一种有效的将工作的思考、总结、反思、提高整合于一身的工作方式。” 在…