基于人工智能的搜索和推荐系统

        互联网上的搜索历史分析和用户活动是个性化推荐的基础,这些推荐已成为电子商务行业和在线业务的强大营销工具。随着人工智能的使用,在线搜索也在改进,因为它会根据用户的视觉偏好提出建议,而不是根据每个客户的需求和偏好量身定制产品描述。

概述

现代搜索引擎帮助我们在几秒钟内在不断增长的互联网数据海洋中找到任何实际问题的答案。这怎么可能呢?如此快速的搜索过程背后是什么?本博客将讨论人工智能 (AI) 搜索技术,这些技术可以快速帮助满足用户的信息需求并提供最合适的建议。

AI 帮助推荐引擎根据每个客户的需求和偏好做出快速、切中要害的推荐。借助 AI,在线搜索变得越来越好,因为它会根据用户的视觉偏好而不是产品规格提供推荐。

利用 AI 的推荐引擎可以成为搜索字段的替代品,因为它们可以帮助用户找到他们可能不会以不同的方式看到的对象或内容。这就是为什么今天,推荐引擎在 Amazon、Facebook、YouTube 等网站中发挥着至关重要的作用。让我们更深入地了解推荐引擎的工作原理,并了解它们如何收集数据和提出建议。

搜索引擎的演变

Archie 是第一个搜索引擎,它搜索 FTP 站点以创建可下载文件的索引。由于篇幅有限,仅提供房源,不包括每个地点的内容。它允许用户环顾 Internet。但它的功能有限,尤其是与当前的搜索引擎相比。第一个搜索引擎是一个 FTP,用户可以在其中提出简单的文件搜索请求,他们必须下载这些文件才能读取文件。

随着 Internet 上文档总数的增加,系统似乎对相关页面进行了排名。对于页面排名,搜索机器会考虑查询中的关键字、这些单词的频率以及它们在文档上下文中的重要性

必要的统计量 TF-IDF 出现了:

  • TF (Term-frequency) — 单词实例数与文档中单词总数的比率,用于评估单个记录中术语的重要性。

  • IDF (Inverse Document Frequency) — 单词在特定文档集合中出现的频率的倒数,这种方法减少了广泛使用的关键字的权重。

Google 搜索引擎于 1998 年出现,具有创新的反向链接排名算法 PageRank[KB(2] )。该工具的本质是,机器会根据与运营商相关的超链接数量来评估页面的重要性。具有最多反向链接的页面被推到最高排名。

2013 年,Google 创建了 Word2Vec,这是语义分析模型的集合。它为 2015 年推出的新型人工智能搜索技术 RankBrain 奠定了基础。这个自学系统可以在单独的单词之间建立联系,提取隐藏的语义联系并理解文本的含义。搜索引擎算法基于神经网络和深度学习工作,可以找到与关键字和目的匹配的页面。与传统算法相比,神经网络的主要优势在于它们经过训练,但未进行编程。从技术上讲,他们可以学习检测输入数据和输出之间的复杂依赖关系并进行简化(就像人脑在神经元之间建立连接一样)。

所有 AI 搜索技术的基本任务是提高对复杂冗长查询的理解,并在输入信息不完整或扭曲时提供正确的结果。

搜索引擎的历史:从索引卡到 AI 聊天机器人

现代搜索引擎非常神奇——复杂的算法使搜索引擎能够获取您的搜索查询并返回通常准确的结果,从而为您提供有价值的信息。

搜索引擎的历史始于 1990 年的 Archie,这是一个托管可下载目录列表索引的 FTP 站点。搜索引擎仍然是原始目录列表,直到搜索引擎发展到对网站进行爬取和索引,最终创建算法来优化相关性。

AI 搜索的工作原理是什么?

搜索时,AI 通常是指机器学习和自然语言处理 (NLP) 模块,这些模块确定搜索查询向用户检索相关信息的意图。

NLP 和 ML

由于人类语言的非结构化性质和多样性,理解和充分响应人类说话的方式对机器来说是一个巨大的挑战。

借助 NLP,计算机可以检测语言模式并识别单词之间的关系,以了解用户的兴趣。NLP 是 Alexa 和 Siri 等语音助手的核心,因此 Google 通过让智能引擎阅读 2,865 部言情小说来训练其 AI 更具对话性。

计算机程序需要机器学习才能根据它们对人类语言的理解自动采取行动,并提供随着时间的推移而改进的回复。机器学习是一门使系统执行操作而无需使用数学公式进行显式编程的科学。机器分析输入系统的数据,并使用算法不断寻找模式和联系,同时执行人类团队需要数周甚至数年才能完成的任务。

语义搜索

搜索 2021 年的“最佳洗手液”,您可以获得对 COVID-19 有效的产品建议,而无需指定任何其他内容,这与您在 2019 年收到的产品相比大不相同。通过查询的上下文含义来理解搜索者的意图,而不是依赖于一个人输入的确切单词,是语义搜索的领域,因为搜索引擎理解查询的含义,人们发现使用它们的便利性,他们的期望会发生变化。使用 NLP 和机器学习的 AI 驱动的语义搜索意味着调查可以独立运行并返回更相关的结果。

热门内容搜索引擎

从成立至今,Google 一直是搜索引擎市场的领导者。

截至 2021 年 6 月,Bing 在全球搜索引擎市场的份额为 5.56%,而市场领导者 Google 的份额为 87.76%。在此期间,雅虎的市场份额为 2.71%。

领先搜索引擎的全球市场份额

 

基于 AI 的推荐系统

对 Internet 上的搜索历史和用户活动的分析是个人推荐的基础,这已成为电子商务行业和在线公司的强大营销工具。

推荐系统不使用特定查询,而是分析用户的偏好来推荐感兴趣的商品或服务。为了预测特定客户的需求,推荐人会考虑以下因素:

·以前查看过的页面

·过去的购买记录

·用户的个人资料(其中标明了年龄、性别、职业、爱好)

·其他用户及其连接的类似个人资料

·地理位置

因此,推荐引擎是一种过滤系统,可防止信息过载,并根据每个客户的需求提取切中要害的内容。

推荐系统有哪些类型?

有各种类型的推荐系统,每种系统都使用多种技术和方法来生成预测。实施在很大程度上取决于用例(即它将如何满足业务需求)、项目的规模以及数据的数量和质量。通常,有基于内容和协作过滤的推荐系统,协作过滤进一步分为基于内存和基于模型的方法。

基于内容的推荐系统使用基于用户喜欢的产品或服务的明确反馈、属性、关键字或描述的过滤器。该算法推荐根据用户当前想要或寻找的内容建立的项目。

使用协同过滤的系统有两个子组,并使用不同的方法:

  • 基于模型 — 利用机器学习 (ML),涉及从信息集中提取信息(例如,评级、反馈、评论等),并使用这些信息来构建 ML 模型

  • 基于内存 — 分析数据集以查找或建立其他用户或项目之间的相关性和相似性,从而获得推荐。

什么是基于内容的筛选?

基于内容的推荐系统通过显式或隐式反馈处理用户提供的数据。随着用户提供更多输入或对初始建议采取更多操作,引擎/系统会变得更加准确。

 

什么是协作筛选?

协作筛选的运行基于以下假设:同意或喜欢过去的用户更有可能在不久后执行相同的操作。如下所示,协作筛选涉及分析数据,这些数据通常以矩阵形式排列,其中包含一组项目和具有相似偏好的用户,这些用户已表明他们的响应。协作过滤中的一个基本概念是利用其他用户的反馈或评级来为特定用户生成预测。这些衡量标准包括详细评分(例如,喜欢或不喜欢、1 到 10 分的评分等)或隐性反馈(例如,查看、添加到愿望清单、在页面上花费的时间等)。

 

用于开发 AI、ML、DL 解决方案的框架

为了有效地创建和部署智能搜索和 AI 技术,开发人员必须选择合适的框架。每个框架都有特定的用途,有其特性和功能。

Microsoft 认知工具包 (CNTK)

CNTK 表示一组用于设计和开发不同类型网络的开源工具。它通过深度学习使处理大量数据变得更加容易,并为语音、图像和手写识别提供实用的训练模型。

TensorFlow

用于语音和图像识别的最佳开源库是文本应用程序。该框架由 Google 开发,用 C++ 和 Python 编写。它非常适合复杂项目,例如,关于创建多层神经网络的项目。

PyTorch 插件

该工具由 Facebook 组成,主要用于快速有效地训练模型。它有几个现成的训练模型和易于组合的模块化部件。最重要的优势是透明和直接的模型创建过程。

MXNet 网络

Apache 创建了一个非常可扩展的深度学习框架,被大公司和全球 Web 服务主要用于语音和手写识别、自然语言处理 (NLP) 和预测。

DL4J 系列

Deeplearning4j 是一个主要用 Java 和 Scala 编写的商业开源平台。该框架适用于图像识别、自然语言处理、漏洞架构和文本分析

IP 布局

主要市场参与者(美国顶级外派人员)

下图显示,谷歌 (3138)、Microsoft (2137) 和 IBM (1418) 是人工智能搜索和推荐系统中专利申请量排名前三的受让人。

 

结论

人工智能和大数据分析已经在我们的日常生活中扎根,产生了重大的变化。在 AI 算法的帮助下,内容搜索和推荐实践变得越来越像人类。

毫无疑问,搜索引擎越来越受欢迎,并在新的数字时代发挥着重要作用。尤其是人工智能,即时推荐更加普遍,既省时又务实。借助人工智能,推荐引擎提高了他们的生产力,并且它们基于客户的视觉偏好而不是项目的描述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/463752.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用ffmpeg和mediamtx模拟多通道rtsp相机

首先下载ffmpeg,在windows系统上直接下载可执行文件,并配置环境变量即可在命令行当中调用执行。 下载地址: https://ffmpeg.org/再在github上下载mediamtx搭建rtsp服务器,使用ffmpeg将码流推流到rtsp服务器。 下载地址&#xff1…

Spring Boot框架:校园社团信息管理的现代化解决方案

3系统分析 3.1可行性分析 通过对本校园社团信息管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本校园社团信息管理系统采用SSM框架,JAVA作…

软件测试面试八股文个人总结

一、软件测试基础面试题 1、阐述软件生命周期都有哪些阶段? 常见的软件生命周期模型有哪些? 软件生命周期是指一个计算机软件从功能确定设计,到开发成功投入使用,并在使用中不断地修改、增补和完善,直到停止该软件的使用的全过程(从酝酿到…

彻底理解链表(LinkedList)结构

目录 比较操作结构封装单向链表实现面试题 循环链表实现 双向链表实现 链表(Linked List)是一种线性数据结构,由一组节点(Node)组成,每个节点包含两个部分:数据域(存储数据&#xff…

C#/.NET/.NET Core优秀项目和框架2024年10月简报

前言 每月定期推广和分享的C#/.NET/.NET Core优秀项目和框架(每周至少会推荐两个优秀的项目和框架当然节假日除外),推文中有项目和框架的介绍、功能特点、使用方式以及部分功能截图等(打不开或者打开GitHub很慢的同学可以优先查看…

数据库作业5

1,建立触发器,订单表中增加订单数量后,商品表商品数量同步减少对应的商品订单出数量,并测试 测试: 2.建立触发器,实现功能:客户取消订单,恢复商品表对应商品的数量 测试 3.建立触发器,实现功能:…

证书下行,这些高质量IT证书仍值得考

在快速变化的信息技术领域,专业认证不仅证明了个人的专业技能,还常常是许多企业在招聘时考虑的重要标准,因此很多IT朋友都会选择考一本证书来傍身。 然而,随着技术的发展和市场的变化,并不是所有的IT证书都能保持其原有…

华为荣耀曲面屏手机下面空白部分设置颜色的方法

荣耀部分机型下面有一块空白区域&#xff0c;如下图红框部分 设置这部分的颜色需要在themes.xml里面设置navigationBarColor属性 <item name"android:navigationBarColor">android:color/white</item>

【开源免费】基于SpringBoot+Vue.JS新闻推荐系统(JAVA毕业设计)

博主说明&#xff1a;本文项目编号 T 056 &#xff0c;文末自助获取源码 \color{red}{T056&#xff0c;文末自助获取源码} T056&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析…

使用DJL和PaddlePaddle的口罩检测详细指南

使用DJL和PaddlePaddle的口罩检测详细指南 完整代码 该项目利用DJL和PaddlePaddle的预训练模型&#xff0c;构建了一个口罩检测应用程序。该应用能够在图片中检测人脸&#xff0c;并将每张人脸分类为“戴口罩”或“未戴口罩”。我们将深入分析代码的每个部分&#xff0c;以便…

【MySQL】架构

1. MySQL架构基本理解 与餐厅就餐类比理解 每次数据库查询就像一次餐厅服务 应用程序发出查询相当于点菜MySQL解析和执行查询&#xff0c;后厨根据订单制作食物事务管理保证数据的一致性&#xff0c;类似于结账的时候保证账单正确查询的时候考虑优化器&#xff0c;类似于厨师选…

Linux服务器或Linux计算机设置不记录历史命令

1.设置环境变量 打开命令终端&#xff0c;编辑.bashrc文件中&#xff0c;修改HISTSIZE和HISTFILESIZE都为0 sudo nano ~/.bashrcfor setting history length see HISTSIZE and HISTFILESIZE in bash(1) HISTSIZE0 HISTFILESIZE0 2.生效 source ~/.bashrc 3.验证 cat ./b…

基于Spring Boot的中小型制造企业质量管理系统设计与实现,LW+源码+讲解

摘 要 信息数据从传统到当代&#xff0c;是一直在变革当中&#xff0c;突如其来的互联网让传统的信息管理看到了革命性的曙光&#xff0c;因为传统信息管理从时效性&#xff0c;还是安全性&#xff0c;还是可操作性等各个方面来讲&#xff0c;遇到了互联网时代才发现能补上自…

动手学深度学习65 注意力分数

1. 注意力分数 好处&#xff1a;k q v的长度都可以不一样。 2. 代码 3. QA 1 画出注意力权重&#xff0c;对任何一行query&#xff0c;给每一对key-value多少注意力【哪对key-value更重要】 2 语义上的区别 3 是的。一元版本换成向量版本 4 通常用相似度做注意力分数&…

从新手到专家:7款电脑平面设计软件评测

平面设计在时尚、广告等多个领域扮演着重要角色&#xff0c;而创作出独特且富有创意的设计作品则需要依赖优秀的电脑平面设计软件。市场上的电脑平面设计软件众多&#xff0c;每款软件都有其独到之处。本文将为你推荐几款值得关注的电脑平面设计软件&#xff0c;并分析它们的特…

HTML 块级元素和内联(行内)元素详解

在 HTML 中,元素根据它们在页面中的表现方式分为两类:块级元素 和 内联元素(行内元素)。了解块级元素和内联元素的特性与使用方法,是掌握HTML开发的重要基础。本文将深入探讨这两类元素的特点及其在实际开发中的应用。 文章目录 一、块级元素1.1 块级元素是什么?1.2 块级…

微信支付宝小程序SEO优化的四大策略

在竞争激烈的小程序市场中&#xff0c;高搜索排名意味着更多的曝光机会和潜在用户。SEO即搜索引擎优化&#xff0c;对于小程序而言&#xff0c;主要指的是在微信小程序商店中提高搜索排名&#xff0c;从而增加曝光度和用户访问量。有助于小程序脱颖而出&#xff0c;提升品牌知名…

内存马浅析

之前在jianshu上写了很多博客&#xff0c;但是安全相关的最近很多都被锁了。所以准备陆陆续续转到csdn来。内存马前几年一直是个很热门的漏洞攻击手段&#xff0c;因为相对于落地的木马&#xff0c;无文件攻击的内存马隐蔽性、持久性更强&#xff0c;适用的漏洞场景也更多。 J…

【网络】套接字编程——TCP通信

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;TCP网络服务器简单模拟实现。 > 毒鸡汤&#xff1a;有些事情&#xff0c;总是不明白&#xff0c;所以我不会坚持。早安! > 专栏选自&#xff1a;…

CytoSPACE·空转和单细胞数据的高分辨率比对

1. 准备输入文件&#xff0c;需要四个文件&#xff0c;所有文件都应以制表符分隔的表格输入格式 (.txt) 提供。 a. scRNA-seq 基因表达文件 矩阵必须是基因&#xff08;行&#xff09;乘以细胞&#xff08;列&#xff09;。 第一行必须包含单个细胞 ID&#xff0c;第一列必须…