数据开源 | 跨境电商场景中日平行语料1000

如果问近两年最热的概念，相信不少人会回答：元宇宙。但元宇宙到底是什么，目前还尚未有明确定义。广义来说，元宇宙是一个视觉图像丰富的虚拟空间，在这个空间中人们可以工作、娱乐、购物、社交等。

你可以想像自己真的“存在”于一个虚拟的世界中，不仅可以订制自己的化身 (Avatar)，还能够拥有数位资产，从而可以与来自全世界不同地区、不同肤色、不同语种的伙伴进行互动交流。

跨境电商中的虚拟人

如今元宇宙已经渗透到各行各业，从游戏到影视，从客服到电商，从主播到艺术界、旅游界等等，仿佛一夜之间我们的生活离不开元宇宙的加持。

而提到元宇宙的商业前景和发展，虚拟人绝对会占有一席之地。各类虚拟人不断跨界，不仅成功变身新一代IP偶像，甚至不乏影视明星和歌手。其中，电商领域客服则是虚拟人营业最多的场景之一，也是我们经常在购物APP中见到的7x24小时在线的电商小姐姐小哥哥。

目前国内各大电商平台的竞争已进入白热化，众多电商平台开始布局跨境电商。11月24日，国务院批复同意在廊坊市、沧州市、运城市等33个城市和地区设立跨境电子商务综合试验区。这是中国设立的第七批跨境电子商务综合试验区。此次扩围之后，中国跨境电子商务综合试验区数量达到165个，覆盖31个省份。这也体现了国家对于跨境电商的大力支持。

跨境电商的沟通挑战

困扰跨境电商发展的重要问题之一在于语言，采用多语系直播人员会大幅增加企业的资金成本和时间成本投入。而虚拟人则体现出其独有的强大优势，比真人效率高、待机时间长、可复用性强，具有巨大的商业潜力。

虚拟人主流的对话功能主要依赖自动语音识别、自然语言处理、自动语音合成技术。目前这三种技术都是依赖深度学习模型，需要经过大量数据的训练，才能够得到可以识别和合成文本、语音的虚拟人。

而训练掌握双语种甚至多语种的虚拟人，需要多语种的平行语料。平行语料库是由原文文本及其平行对应的译语文本构成的双语或多语语料库。其对齐程度可有词级、句级、段级和篇级几种。平行语料库按翻译方向的不同有单向平行语料库、双向平行语料库和多向平行语料库等三种形式。平行语料库指库中的两种或多种文本互相是对方的译文，可以用于翻译或者机器翻译研究。

但是由于平行语料采集比单一语种语料库需要更加高级的采录人员，投入更多的时间和财力成本，因此非常稀缺。很多基于平行语料研究的自动语音识别、自然语言处理、语音合成技术的研究和落地，都因为数据的缺乏，没能得到很好的推进和执行。

数据开源 | 跨境电商场景中日平行语料库

为更好的助力跨境电商虚拟人客服的发展，本次Magic Data开源跨境电商场景下的中日平行语料库，为模型训练提供帮助。本次开源1000+中日平行语料数据集，文本内容选自电商平台。数据类别丰富多样，包含如数码产品、衣帽服饰、儿童玩具、美发美妆等多种商品种类。数据题材涉猎广泛，包含商品标题、产品说明、用户评价、商户问答等。文本由日本本国译员完成，并由在日华人进行校对，适用于零售场景的机器翻译领域。