刚刚!马斯克开源Twitter算法,GitHub Star数已破万!

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年2月份热门报告合集

ChatGPT种子用户招募(无限制次数直接使用)

ChatGPT调研报告(仅供内部参考)

文心一言、GPT3.5及GPT4应用测评对比报告

ChatGPT团队背景研究报告

ChatGPT的发展历程、原理、技术架构及未来方向

ChatGPT使用总结:150个ChatGPT提示此模板

2023年AIGC发展趋势报告:人工智能的下一时代

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

大规模推荐类深度学习系统的设计实践.pdf

荣耀推荐算法架构演进实践.pdf

推荐系统在腾讯游戏中的应用实践.pdf

小红书推荐系统中台应用实践

微信视频号实时推荐技术架构分享

e9272bb0564441b479612dce4064fcf5.png

等来等去,马斯克终于兑现了他的开源承诺。

马斯克开源 Twitter 推荐算法

3 月 31 日,正如马斯克一再承诺的那样,Twitter 已将其部分源代码正式开源,其中包括在用户时间线中推荐推文的算法。目前,该项目在 GitHub 已收获 10k+ 个 Star。

GitHub 地址:https://github.com/twitter/the-algorithm

40e77c80317a55e4cdc42d8c4e90e8d1.png

马斯克在 Twitter 上表示此次发布的是“大部分推荐算法”,其余的算法也将陆续开放。他还提到,希望“独立的第三方能够以合理的准确性确定 Twitter 可能向用户展示的内容”。在关于算法发布的 Space 讨论中,他说此次开源计划是想让 Twitter 成为“互联网上最透明的系统”,并让它像最知名也最成功的开源项目 Linux 一样健壮。“总体目标,就是让继续支持 Twitter 的用户们最大程度享受这里。”

ef9d92c996d936e9a3dd6a3498521fd0.png

Twitter 官网博客详细介绍了算法在确定 For You 时间线所显示的推文时,会具体参考哪些内容并如何对其进行排名和过滤。

db3e8c7d206f98f563d7d6f594e0d70a.png

用于构建时间线的主要组件

从博文来看,推荐管线由三个主要阶段组成。

首先,它会收集“来自不同推来源的最佳推文”,之后使用“机器学习模型”对各推文进行排名。最后,它会过滤掉来自已屏蔽用户的推文、已经看过的推文或者在工作时间不宜观看的内容,最后将结果显示在时间线上。

文中还进一步对过程中的具体步骤做出解释。

例如,第一步大约会查看 1500 条推文,目标是让 For You 时间线中约 50% 的推文来自已关注的用户(即「人际网络内」),50% 的推文来自“尚未关注的「人际网络外」账户”。排名则“参与积极性进行优化(例如点赞、转发和回复)”,最后一步则努力保证用户不会看到同一个人的过多推文。

诚然,代码透明(用户能够看到系统到底在以怎样的机制为时间线选择推文)和代码开源(允许社区提交自己的代码作为备选,也可在其他项目中使用 Twitter 算法)并不完全是一码事。

虽然马斯克反复提到要开源,但如果 Twitter 想要言而有信,就必须满足后者的标准。换言之,Twitter 需要建立新的治理系统,决定批准哪些 PR、关注哪些用户提出的问题,以及如何阻止恶意人士出于个人目的而破坏代码。

目前来看,Twitter 正在为此而努力。GitHub 上的自述文件提到,“我们邀请社区在 GitHub 上提交问题和 PR,为推荐算法的改进提出建议。”但文件还写道,Twitter 仍在构建“用于建议管理并将变更同步至内部代码仓库的工具”。马斯克领导下的 Twitter 曾经做出过不少承诺,但并没能坚持下来,所以恐怕要到其实际接收社区代码之后才能确定这是否属实。

马斯克的开源承诺

此前,马斯克曾多次表示将开源 Twitter 算法。

2022 年 3 月,马斯克曾在 Twitter 发起一项调查,询问用户对该平台算法开源的看法。他写到:“我担心 Twitter 算法中实际存在的偏见会产生重大影响,我们怎么知道背后到底发生了什么?”马斯克认为,我们对 Twitter 这个公共平台的信任程度越高,文明的风险就越小。

2022 年 5 月,马斯克曾与 Twitter 联合创始人兼前 CEO Jack Dorsey 就该平台的算法问题发生过争执。马斯克表示,“算法正在以你们意识不到的方式操纵你们……我不是说算法有恶意,但它的确在猜测你想看什么内容,这样就会无意间操纵 / 放大你的观点,而你却完全没有意识到正在发生什么。”

2022 年 10 月接管 Twitter 后,马斯克关于开源 Twitter 算法的想法也没有发生改变。

2023 年 2 月 21 日,马斯克称将于下周对 Twitter 算法进行开源。当时一位 Twitter 用户表示,如果 Twitter 能够开源算法,他们将会“真心折服”。马斯克回应道:“当我们下周开源算法时,一开始请做好失望的准备,但之后将会快速改善。”

不过遗憾的是,马斯克并未兑现“下周开源”的承诺。直到 3 月 18 日,马斯克再次发声:“Twitter 将于 3 月 31 日开源所有用于推文推荐的代码。”

马斯克表示:“我们的‘算法’过于复杂且内部未完全理解。 人们会发现很多愚蠢的事情,但我们会在发现问题后立即修补。我们正在开发一种简化的方法来提供更具吸引力的推文,但这项工作仍在进行中,这也将是开源的。提供代码透明度一开始可能会令人尴尬,但它应该会让推荐质量快速提高。最重要的是,我们希望赢得您的信任。”

7d31992c3a17b493257b3a03c79f697c.png

不过尴尬的是,据美联社当地时间 3 月 26 日报道,一份法律文件显示,推特公司的部分源代码遭泄露,被发布在开源编程及代码托管网站 GitHub 上。为防止该事件对其服务产生潜在的破坏性损失,Twitter 已经采取了法律行动,GitHub 遵从通知并删除了被泄露的代码。

现在,马斯克终于如愿开源 Twitter 算法,但他的决断也面临着强烈的反对之声。用户们对自己 For You 页面中经常显示马斯克的推文表示不满,而马斯克的支持者们则担心自己在社区中的参与度正在降低。他辩解称,新的推荐算法希望“最大限度削减”负面和仇恨内容,但之前无法访问这些代码的外部分析师对这种说法并不买账。

此外,Twitter 还可能面临来自开源社区的竞争压力。Mastodon 是一个去中心化社交网络,目前在特定圈子里正越来越受欢迎。Twitte r 公司联合创始人 Jack Dorsey 则正在支持另一个名为 Bluesky 的类似开源项目。

Twitter 推荐算法的底层工作机制

像 Twitter 这样复杂的系统,开源算法并非易事。开源作者 Travis Fischer 曾在一篇文章中分析道,Twitter 的推荐算法是由一个个性化推荐系统提供的,用于预测用户最有可能与哪些推文和用户互动。关于这个推荐系统,最重要的两部分是:

  • 用来训练 ML 模型的基础数据,即 Twitter 的大规模专有网络图;

  • 在确定相关性时考虑的排名信息。

     大规模专有网络图

像 Twitter 这样的社交网络就是超大图的实例,节点是用户和推文的模型,边则是回复、转发和喜欢等互动的模型。

82e7072a196cb21b8bd8c88dc777a67d.png

Twitter 动态网络图的可视化,作者是 Michael Bronstein,来自 Twitter 的 Graph ML 部门(2020)。

Twitter 的核心商业价值有很大一部分来自于这个庞大的由用户、推文和互动构成的基础数据集。 用户登录、查看推文、点击推文、查看用户资料、发布推文、回复推文等,在 Twitter 上的每一次互动都会被记录到内部数据库。

从 Twitter 的公共 API 获得的数据只是 Twitter 内部跟踪数据中的一小部分。这一点很重要,因为 Twitter 的内部推荐算法可以获得所有这些丰富的互动数据,而任何开源工作都可能仅能使用一个有限的数据集。

 排名信息

2017 年,Twitter 的研究人员曾在一篇名为《在 Twitter 时间线上使用大规模深度学习》的文章中提到,为了预测某条推文是否会吸引用户,Twitter 的模型考虑了以下几个要点:

  • 推文本身:它的新近度,存在的媒体卡(图像或视频),总互动数(如转发和喜欢的数量)。

  • 推文作者:用户过去与这个作者的互动,用户与他们联系的强度,用户关系的起源。

  • 用户:用户在过去觉得有吸引力的推文,用户使用推特的频率和程度。研究人员表示,“我们考虑的特征及其各种互动的清单在不断增加,为我们的模型提供了更多存在细微差别的行为模式。”

这些 2017 年的排名信息描述可能有点过时,但这些核心信息在今天仍然与 Twitter 高度相关。因为这份清单很可能已经推广到几十甚至几百个重点机器学习模型,它们支撑着 Twitter 的算法。

a33d18763ec1067c3a094a7afcd69d80.png

一个深度学习模型的可视化,用于确定一个用户在未来关注另一个用户的可能性。这个模型代表了 Twitter 内部各种推荐系统的一小部分。

Travis Fischer 认为,将 Twitter 推荐算法开源难免会遇到一些重大的工程挑战

比如,Twitter 的网络图非常庞大,包含数以亿计的节点和数十亿的边。Twitter 的实时性带来了另一个独特的挑战:用户希望 Twitter 尽可能地接近实时,这意味着底层网络图是高度动态的,延迟成为一个真实的用户体验问题。此外,还有可靠性、安全与隐私方面的挑战。

但无论如何,马斯克还是兑现了他的开源承诺,Twitter 推荐算法开源也标志着,这类平台的透明度正在迈出关键一步。

 

「 更多干货,更多收获 」

e15da8aa4b1dfe8a431e07487dfce1fe.gif

 

【免费下载】2023年2月份热门报告合集

ChatGPT种子用户招募(无限制次数直接使用)

ChatGPT调研报告(仅供内部参考)

ChatGPT的发展历程、原理、技术架构及未来方向

《ChatGPT:真格基金分享.pdf》

2023年AIGC发展趋势报告:人工智能的下一时代

推荐系统在腾讯游戏中的应用实践.pdf

推荐技术在vivo互联网商业化业务中的实践.pdf

2023年,如何科学制定年度规划?

《底层逻辑》高清配图

推荐技术在vivo互联网商业化业务中的实践.pdf

推荐系统基本问题及系统优化路径.pdf

荣耀推荐算法架构演进实践.pdf

大规模推荐类深度学习系统的设计实践.pdf

某视频APP推荐策略详细拆解(万字长文)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37760.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

招募:AICG内容联合创作计划 | AIGC实践

AIGC(AI Generated Content,人工智能自动生成内容)必将成为小微创业团队进行低成本内容运营的最佳实践。 你同意这个观点吗? 如果我们恰好想法一致,或许可以一起搞点事情,探索一下商业场景下,应…

【原创】实现ChatGPT中Transformer模型之输入处理

作者:黑夜路人 时间:2023年7月 Inputs Process(输入处理层)实现 我们看整个绿色框的整个位置,就是Inputs Process(输入处理层)。 在输入处理层,其实非常容易理解,主要就…

Visual Studio Community 2022 + Win10 编译 OpenCPN 5.9.0 记录

前言 前两天尝试用vs2017编译OpenCPN5.0.0,前后折腾了两三天总算编译成功了。官网给出的编译过程比较简单,我在实际编译过程中遇上了很多很多的问题,最多的就是缺少库,好在最后编译通过了。 后来浏览OpenCPN官网的时候发现发布了…

jmeter简单使用以及报告生成

jmeter入门 前置准备jmeter目录介绍jmeter常用组件jmeter简单食用 第一次写文章,主要就是一些简单的自学笔记,记录一下自己以后能方便看,大家需要的话也可自行取用,这些年干下来,我发现内容不重要,重要的是…

学会 IDEA 中的这个功能,就可以丢掉 Postman 了

点击关注公众号,Java干货及时送达👇 转自:oschina 作者:凯京技术团队 my.oschina.net/keking 前言 接口调试是每个软件开发从业者必不可少的一项技能,一个项目的的完成,可能接口测试调试的时间比真正开发写…

分享:python+Windows自带任务计划程序,实现定时自动删微信的video文件夹

目录 0. 背景1. 使用python实现删微信的video文件夹1.1 代码1.2 打包 2. 使用python实现自动添加任务计划程序2.1 代码2.2 打包 3. 使用bat脚本方便操作3.1 手动删.bat3.2 加入定时任务.bat 0. 背景 pc微信实在太占用磁盘空间了,特别是其中的视频文件夹。所以有了这…

搭建本地服务器+jshtml访问mysql并显示输出

文章目录 人生苦短,先问chatgpt1. 用Tomcat配置本地网站2. 访问本地网页3. js访问本地mysql并显示在html中 PS: Chatgpt实在是有点强~~ 今天是悲伤的一天,把mysql密码忘了,网上搜的方法没用,本来以为卸载部分组件就好,…

3句代码,实现自动备份与版本管理

前言: 服务器开发程序、测试版本等越来越多,需要及时做好数据的版本管理和备份,作为21世界的青年,希望这些事情都是可以自动完成,不止做了数据备份,更重要的是做好了版本管理,让我们可以追溯我们…

【编程实践】Linux Shell 编程:使用 循环和递归 实现斐波那契数列代码

用 Linux Shell 编程语言递归实现斐波那契数列代码:循环和递归 Linux Shell 编程语言是一种强大的工具,它可以轻松地实现程序设计语言中的常见算法。 斐波那契数列 斐波那契数列是一种经典的算法,它的定义如下: 斐波那契数列(Fibonacci Sequence)是以递归的方法来定义: …

chatgpt赋能python:Python下载与运行指南-让Python脚本更容易使用

Python下载与运行指南 - 让Python脚本更容易使用 Python已经成为世界上最流行的编程语言之一。Python具有简单易用的特点,几乎可以开始创建任何类型的应用程序或脚本。如果你是一名新手或是一名经验丰富的开发者,Python都是一款优秀的编程语言。 本篇文…

人教版初中英语听力软件,人教版初中英语听力mp3

新目标英语九年级上册Tapescripts所有的翻译 east东方的、eagerness热心、eagle鹰、ear耳朵,听力、early早等。 词汇解析一、east 英 [iːst]   美 [iːst]    adj. 东方的adv. 向东方n. 东方;东部1、east的基本意思是“东,东方”&…

英语语音题

语音题 a i i在nd和gh前发[ai] y th 词首[θ] the、ther结尾[] ch tion ow[哦][奥] oo ar ed 清读[t] 浊元读[d] t、d后读[id] 清:破客服吃屎,戳死赐死 ea o s ou e 欸 b ure 呃 优呃 屋呃 h gh ex 后有元[igz] 后有辅[iks] c al ai wh w在wr、…

ChatGPT: Optimizing Language Models for Dialogue

1.简介 最近ChatGPT很好,本文根据https://openai.com/blog/chatgpt/翻译总结的。 ChatGPT: Optimizing Language Models for Dialogue。如标题,ChatGPT为了对话使用的。 ChatGPT是InstructGPT的兄弟模型,它被训练为以提示prompt的方式遵循…

挑战OpenAI,马斯克宣布xAI正式成立:目标是“了解宇宙真实本质”!

挑战OpenAI,马斯克宣布xAI正式成立:目标是“了解宇宙真实本质”! 一、马斯克官宣xAl硬刚OpenAl二、创始团队1/3成员是华人三、马斯克下了一盘棋 北京时间7月13日凌晨,马斯克在Twitter上宣布:“xAI正式成立,…

昨天OpenAI GPT-4,今天微软Copilot,轮番上阵碾压谁?

来源:《飞哥说AI》公众号 作者|高佳 创意|李志飞 微软Copilot横扫Office全系产品,正式改名为Microsoft 365 ,其野心昭然。 微软全家桶自带AI智能驾驶模式,意味着 Windows 全AI系列新品将火速渗透各行各业…

自然语言处理:Word2Vec

每种动物都有自己的语言,机器也是!自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁。 NLP通常有情感分析、文本挖掘、信息抽取、信息检索、问答/对话系统(聊天机器人)、语音识别、机器翻译等应用…

周鸿祎:ChatGPT可能两三年内产生自我意识;字节加入大模型之战;Ubuntu下一版本默认不再支持Flatpak| 极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

chatGPT在线网页写论文

帮我写一篇关于秦始皇对于中国的影响论文 秦始皇,即嬴政,是中国历史上的伟大统治者之一。他在位期间统一了中国各个诸侯国,建立了秦朝,并为中国历史上的统一奠定了基础。秦始皇对于中国的影响是深远而持久的,不仅在政…

如何加速大模型开发?技术方案拆解来了:昇思MindSpore技术一览

随着ChatGPT爆火出圈,狂飙之势从22年底持续到23年初,与以往的技术突破不同的是,此次的大模型不仅被技术界关注,而且备受投资界、产业界和大众消费者的追捧,使它成为历史上最快月活过亿的现象级应用,继而引发…

Python项目:基于爬虫+Flask实现招聘岗位数据分析与可视化

在 基于爬虫Flask实现豆瓣电影Top250数据分析 的基础上,进一步实战,开发出本项目 基于爬虫Flask实现的招聘岗位数据分析与可视化,干货多多,也学到了很多的东西。 文章目录 1、项目简介:2、成果展示:3、后台展示4、项目总结: 1、项目简介: 项目主要是对招聘网站 51job 上的招聘信…