PS:史塔西的文章还是很有质量的,成体系的内容输出更是有质量保障,感兴趣的可以关注下(感觉好像我也得努力下了,数据与广告系列还没有完,也给自己加个油)。
为什么是“上线”而非“出版”?
你没眼花,我也没写错,是“上线”而非“出版”,个中原因,请容我慢慢道来。如果你对八卦不感兴趣,可以直接跳到本文的第2部分,看看我给出的“你需要读这本书”的理由。如果你是我的铁粉,相信我在推荐算法领域的水平,相信我不会东拼西凑地攒出本书来糊弄你,可以直接跳到本文的最后一部分,那里有本书的购买方式。
不靠谱的编辑
我在之前的视频已经介绍过了,其实这本书的内容早就完成了,迟迟不能出版的原因就卡在各种格式问题上。原因也很简单,编辑们是读不懂内容的,而出版业的陈腐规则迫使他们只能吹毛求疵,只能在鸡蛋里挑骨头。
最突出的问题有两条:
首先是数学公式的各种规则,比如白体、黑体、花体、粗体、斜体、上角标、下角标、大写、小写、......,好歹本人也写过博士论文的人,这些规则依然复杂地让我头疼。这种好比需要你掌握“回”字的四种写法,而且必须知道在哪种场合用哪种写法。
其次是英文的问题。做技术书籍难免会使用大量的专业术语,这些术语本来就没有优雅的中文翻译,比如Embedding,你让我翻译成什么?“嵌套”?User Embedding是“用户嵌套”?Item Embedding是“物品嵌套”?那Transformer让我怎么翻?翻译成“变形金刚”还是“变压器”??另外,在行业内部的日常交流中,本来我们就是直接使用英文术语的,愣翻译成中文,反而显得不专业,有种“草台班子”的感觉,这也是我对很多外国的专业技术书籍,只看英文原版,不看翻译版的原因。但是在我看来,出版社对英文的反感已经达到了偏执的程度,让我不得不怀疑这里面是否掺杂着民族主义因素。
说白了,在我看来,出版社就是让我效仿李白。李白写完诗后,必须改到能让老妪和3岁小儿都能听懂后,再发表。出版社假定这本书的读者就是老妪和3岁小儿:
我的读者不会通过上下文来知道一个字母是否代表一个向量,必须通过个字母是简体还是黑体来判断。
我的读者不懂英文,也不会使用有道字典
我的读者没有丝毫的机器学习基础,对这个行业的基本术语都没了解。
那帮文案编辑可能符合以上他们心中的读者画像,但是我的这本书的潜在读者不是呀!我很难想像一个想进入AI算法行业的人,在遇到这本书之前,不会联系上下文,不懂英文,也不懂这个领域最基础的专业术语。
接下来,我会反复提到,我的这本书是对标王喆大佬的《深度学习推荐系统》一书的。我翻开人家的书给我的文案编辑看,你看人家的书中一个简体字母也能够代表向量,人家的书中也有大量的英文,怎么人家的书就能顺利出版,销量和口碑也都不错,怎么我的书在你们文案编辑眼中就不过关呢?人家说,我们是隶属于教育部的出版社,标准高,那样的书能出版是人家出版社的要求太低了:-(。
其实,以上这两条问题也不是什么大问题。我没还没有矫情到让出版社都围着我转、必须为我修改规则的地步。出版业的某些行业规则,我觉得荒唐可笑如现代八股文,但是我愿意服从,人家的书能够符合要求,能够顺利出版,我坚信我的书也能。但是严重的问题是,我遇到了一位不靠谱的编辑。
之前有好几家出版社都邀请我出书,是我觉得和这位编辑聊得最投缘,最终决定和她合作,在她的出版社出书。在写作这本书的过程中,我每写完一章就发给她。除了前两章,她提出了一些格式上的意见,剩下的8章,我每次提交后,她都没有任何意见反馈,让我以为这样的内容与格式就万事大吉了。甚至在我主动提出一些格式上的疑惑问题时,她都让我只专心内容就好,对格式上的问题不必操心,未来会有专人来负责。现在想想,我也是too young too naive了。
没想到,编辑也分好几种,她这种与人约稿、对接作者的叫策划编辑。等我把10章都写完,接下来就该文案编辑上场了,负责给我的文稿挑毛病、润色加工。写作时每章都“没意见”的文稿,在文案编辑眼里,到处都是毛病,不是该粗斜体的地方使用了简体,就是某行代码注释使用了英文,......,迟迟过不了关,一拖就是几个月。
归根到底,造成这本书不能出版纸质书的主要原因,就出在那位不专业、不用心、不靠谱的策划编辑身上。我负责提供专业的内容,出版业的格式本来我就不熟悉,而那位文案编辑挑毛病也是职责所在,而居中联络、协调的那位策划编辑是严重失职。如果她负责一些、用心一些,能够在我写前几章的时候就发现格式上的问题并通知我修改,我又怎么会在后续章节中使用越来越多的“错误”格式,造成整部书稿在“格式”问题上积重难返,需要严重返工。
大病一场的感悟
就在与出版社扯皮的过程中,可能也是由于心力憔悴,我得了一场大病,大到在家中晕倒、被120拉到医院那种程度。在等待检查的过程中,我还真想过这个问题:如果一会儿检查出什么大毛病,我那本还没面世的书就永远烂在硬盘上了吗?想想就冤。
好在最终没有检查出多么严重的问题,恢复一段时间后,我也想通了:人生苦短,我的时间很宝贵,没有必要浪费在与出版社纠缠、扯皮这种毫无意义的事情上。我坚信我的书是本好书,哪怕不符合一些如八股文一样的格式要求,哪怕其中有一些英文术语,一样不妨碍给希望了解推荐算法领域最新进展的读者带来高质量的信息。
“死了张屠夫,不吃带毛猪”,出版社只是为图书与读者之间建立一个渠道,但是随着网络技术的发展,出版社不再是文字内容的唯一渠道,我相信离开这个渠道,我的书一样能够找到喜欢它的读者。
让我下决心离开这个渠道的另外一个原因,就是这个渠道的过路费太贵了。我不知道行业标准是什么,反正这本书给我的版税极低,但是现在纸质书又那么贵,可想而知,读者付出与作者收益之间的差价都让这个渠道(包括出版社、印刷厂、电商网站等)赚去了。当初肯接受那么低的版税,是因为还有那么一点点知识分子“著书立说”的情怀在。在遇到那么不靠谱的编辑后,我认为这家出版社没有认真负责地对待我的心血,我对他们彻底失望了,既然如此,也就没必要再委屈自己了。
这一回,我也来一把“没有中间商赚差价”。读者购买电子书,相当于厂家直销,读者能够以更低的价格获取最新的内容和额外服务(什么样的服务,接着向下读就知道了),我也不必要与一些不相干的人分享利润(比如那些文案编辑,我压根没觉得他们在帮我提升这本书的质量,反而他们把我的书改得不伦不类,让它失去了专业性),对我与读者是“双赢”。
电子书的优势
最终这本书没能够以纸质书的形式出版,没能出现在我母校的图书馆中,我很遗憾。但是转念一想,电子书本来就比纸质书拥有巨大优势:
电子书没有重量,不占地方,携带、阅读也更方便。
电子书方便搜索、定位、做笔记,在这一方面碾压纸质书。
如果这本书出纸质书,为了节约印刷成本,需要黑白印刷。没有色彩做区分,书中一些图片、代码就变得难于区分,降低了读者的阅读体验。
反正,我已经好多年没有读过纸质书了。在我看来,纸质书相比于电子书唯一的优势就在于增加了盗版的成本(注意,只是增加了一些成本而已,因为影印盗版也很猖獗),但是这个风险也是由作者我来承担。在我看来,读者购买电子书是“百利而无一害”,既然如此,你还在犹豫什么呢?还不到本文最后找到购买链接,赶紧下单?
你为什么要读这本书?
如果你看到这里,说明你一定对推荐算法感兴趣,但是还在犹豫是否要购买这本《互联网大厂推荐算法实战》。
为什么还在犹豫呢?我想肯定不会是因为价格。本书如果印刷成纸质书,近300页,这个体量的书在初版发行时的售价都要超过100元(如果你在网上看到的价格要低得多,请注意是否是已经发行多年后才打折促销的)。而我的这本书,由于是厂家直销,没有中间商赚差价,所以不过是在北上广吃得好点的一餐饭的价格,真心不算贵。
所以你担心的应该是本书的内容是否物有所值,让你花费了金钱与时间之后,能否得到对你的学业、工作有帮助的知识?OK,接下来是我的广告时间,虽然是“王婆卖瓜,自卖自夸”,但也能让你一窥本书的立意与特点,希望能帮你快速做出正确的决定。
突出实战性
正如这本书的书名所述,“突出实战性“是本书最大的特点,它体现在如下4个方面。
第一,本书紧扣各互联网大厂当下最主流的推荐算法。
它不会讲一些“经典但过时”的推荐算法。比如协调过滤、矩阵分解之类的经典推荐算法,虽然可能仍被使用,但是绝非大厂的主力算法,也不会是面试大厂时的考察重点,而且网上也已经有大量的资料了。本书就不在这样的技术上浪费笔墨、拾人牙慧了,即便提到也是一笔带过。
有一些算法声名显赫,但是实现起来超级复杂,复现效果也比较有争议,故没能成为业界主流。本书的目标并非一味追求新颖,所以也就没有将宝贵的篇幅花在这样的算法上,或许未来补充章节会会考察把它们加进去。
第二,本书说人话,说白话,不罗列数学公式,以把复杂的道理讲得浅显易懂为目标,而不是追求故弄玄虚。
第三,本书除了讲解最基本的算法原理,还聚焦于算法工程师的工作实际,关注他们日常会遇到的实际难题,比如:
多任务推荐与多场景推荐应该怎么搞?
新用户与新物料的冷启问题
如何打开模型的黑盒,排查问题或找到下一步升级改进的方向?
算法工程师的恶梦:线下AUC涨了,线上AB指标却不涨!到底是什么原因造成的?冰山现象、数据穿越还是老汤模型?
......
第四,算法工程师也是码农,所以talk is cheap, show me the codes。对于核心算法,本书都附带实现源码。为了避免凑字数之嫌,书中展示的都是核心代码,而且基本上每行都带有注释,并非管贴不管讲。
授人以渔
熟悉我之前文章的同学都清楚,我始终反对孤立、机械地学习算法,而是提倡“透过现象看本质”,充分理解算法思想。各种NN、FM、Attention,现在有很多,未来会更多,但是这些都是“术”,从中悟出“道”,才算真正掌握了能在实际工作中应对自如的强大工具。因此,本书绝非各种NN、FM、Attention的大杂烩,而是帮读者梳理算法的发展脉络,指引读者由“术”入“道”,达到“举一反三”的目的。比如:
本书梳理了推荐算法区别于普通机器学习算法的特殊性在哪里。充分理解这一特殊性,是理解推荐算法的前提,否则很多推荐算法精彩设计,在外行看来像是“无病呻吟”。
Embedding是深度学习推荐算法的基石,作者用“无中生有”来形容这一思想。书中由评分卡自然推导出Embedding,指出引入Embedding是推荐系统增强扩展性的必然结果。
本文提出了理解深度学习推荐算法的5个维度,帮助读者加深对推荐算法的理解。
本文为所有向量化召回算法提炼出统一的模型框架,帮助读者充分理解向量化召回的本质。借助这个框架,读者可以从不同算法中各取所长,构建出适合自己业务场景的向量化召回算法。
双塔模型是大厂召回、粗排的不二主力。本书指出,改进双塔的重点在于减少信息在塔内流动时的损失,为此作者总结出改进双塔的4条道路。
Meta-Learning可以助力冷启问题。但是经典Meta-Learning在应用于推荐系统时,必须加以改造,本书梳理出三大改造方向。
对比学习在形式与向量化召回很相似,因此不乏有文章“挂羊头卖狗肉”,将普通的向量化召回包装成时髦的对比学习来蹭热度灌水。本书辨析两个技术的异同,指出对比学习应用于推荐系统的本质在于“纠偏”。
......
最火的是ChatGPT,学这些还有用吗?
都2023年了,技术界、投资圈最火的词非ChatGPT、LLM、AIGC莫属,那还有必要学习本书中的推荐算法技术吗?对于这个问题,我回答以下两点。
推荐算法是搭上ChatGPT的船票
虽然不足以判断ChatGPT能否开启第4次工业革命,但是我还是很看好这一技术方向的。因为ChatGPT的确提高了我的生产效率,已经成为我的日常工作、学习之中不可或缺的工具。而且ChatGPT的出现也很恰逢其时,算是给陷于红海血斗的各大互联网公司指出了一条蓝海的方向。
但是想搭上ChatGPT这条船,你还需要一张船票。而本书介绍的推荐算法就是这样一张船票(仓位应该还挺靠上的)。
我很早就说过,推荐算法与NLP算法在问题形式、问题规模、解决思路有很多相似性。学习推荐算法使你的技术储备不至于出现代差,这是保证你能赶得上船的前提条件。
要达到ChatGPT所指引的下一个技术发展阶段,你该乘坐什么样的船前往呢?是互联网大厂的大邮轮,还是创业小厂的小快艇?虽然大厂有这样那样的“大公司病”(内卷、拉帮结派、急功近利等),但是从人力、物力、财力等方面考虑,笔者还是倾向于大厂的大邮轮能成功到岸的概率大一些。毕竟下一站路途遥远,你需要充足的补给(支付你的衣食住行),才能保证等到岸的那一刻,你还在船上(什么?大船拥挤、内卷?唉,在当下全球性的经济危机时刻,又哪里不挤、不卷呢?)。本书介绍的都是互联网大厂常用的推荐算法技术,也算是一张能让你登上大邮轮的船票。
推荐算法是ChatGPT的补充
另外,ChatGPT很好很强大,但是毕竟不能代替推荐,至少现在不能。
ChatGPT的本质是搜索,需要用户输入查询、关键词主动表达自己的意图,为此还诞生了prompt engineering这个新学科指导用户更准确表达自己意图(想想有点滑稽,从前都是我们人类训练模型,现在为了更好使用一个模型,人类开始训练自己)。而推荐不依赖用户主动输入,需要积累用户画像,尽可能精确地猜测出用户当下的兴趣爱好。本书花费很大篇幅介绍了推荐系统构建用户画像、提炼用户兴趣的方法。同理,ChatGPT也不受用户冷启问题的困扰,毕竟新用户也必须主动提供自己的意图才能使用它。
用户对搜索结果的要求是精确,而推荐则不然,推荐结果在准确迎合用户兴趣的同时,也要避免用户陷入“信息茧房”。单从这一个话题引申开来,推荐算法中的冷启动问题、Explore & Exploit、流行度纠偏、打散重排等问题也都是ChatGPT没有考虑过的。
从以上论述中就可以看出,推荐算法有其特殊之处,并非以ChatGPT为代表的AIGC等技术所能取代的。二者应该相辅相成,相互补充,才能构建出下一代更能智能、更加个性化的推荐系统。而本书能帮你打下坚实的推荐算法基础。
业内大佬的推荐
本书很荣幸获得许多业内大佬的肯定与推荐。
石塔西的这本《互联网大厂推荐算法实战》内容翔实,贴近前沿。不仅有原理的讲解,而且附带实现代码和相关论文。是互联网搜广推一线工程师们不可不读的一本好书。
—— 字节跳动算法技术经理,《深度学习推荐系统》作者,王喆
推荐系统在现代工业界扮演着越来越重要的角色。从电商到社交媒体,推荐系统为用户提供了更加个性化的体验,同时也促进了商业的发展。本书深入浅出地介绍了推荐系统的相关原理和实践技术,对于想要了解和应用推荐系统的读者来说是一本非常实用的书籍。作者通过许多实际案例,让读者了解推荐系统的应用场景和具体实现方法。我强烈推荐这本书给那些对推荐系统感兴趣的读者,希望它能为读者在工业界实践中提供有价值的帮助。
—— WeShop co-founder, 蘑菇街VP, 吴海波
本书目录,先睹为快
看看以下这些内容硬不硬核,是不是你想要的?如果是的话,那还犹豫什么,赶紧下单购买吧。
购买与服务
如何购买?
本书会以公众号付费合集的方面与大家见面。有意购买的小伙伴,请搜索并关注我的微信公众号“石塔西的说书馆”,或直接扫描以下二维码。
关注后点击下方的“购书”菜单,就能跳转到付费合集的页面。
或者直接点击以下链接,也能跳转到付费合集的页面。
互联网大厂推荐算法实战
额外超值服务
当你购买这本书之后,你有权加入专属的读者微信群,在这个群中,
作者负责解答你关于本书内容的疑惑。也就是说,普通购书你只享有读它的权力,但是购买本书你将享有“读懂”它的权力。
你建立了与作者的联络渠道,如果你遇到一些关于推荐算法的问题,可以向作者咨询。在知乎,一次付费咨询可就要30元哟。
前不久,我开展了一个帮人点评简历和模拟面试的项目,非常受大家欢迎。这个项目旨在帮助工作、求职经验较少的同学了解互联网大厂在面试算法工程师时的考点,发现自己的不足,从而更有针对性的修改自己的简历和准备面试。这个项目开展以来,深受广大同学,特别是在校同学的欢迎。未来,这个项目就成为付费读者的专属权力。
至于如何入群,目前的做法是,等你购买付费合集后,将付费记录私信给我,然后我拉你入群。私信可以通过在公众号留言的方式进行,但是公众号的私信功能有限制,如果万一我很忙或者疏漏,在48小时内未能看到你的私信,接下来即使我想联系你,公众号平台也不允许我回复了。如果遇到这种情况,建议你尝试多次在公众号下留言,或者通过知乎或者B站的私信功能联系我。未来如果有更好、更自动化的入群方式,我也会及时通知大家。
为了保持联系,请感兴趣的同学,同时关注我的三个频道:
知乎:石塔西
B站:石塔西的说书馆
微信公众号:石塔西的说书馆
最后,衷心希望我的书能够为您提供价值与帮助,希望您能喜欢它。