文章目录
- 一、.机器学习、深度学习库、优秀课程
- 1.1 资源库
- 1.2 优秀课程
- 1.3 优秀作者、公众号
- 二、NLP相关
- 2.1 NLP相关
- 2.2 transformer资源
- 2.3 Hugging Face:
- 2.4 其它文章
- 三、CV相关
- 四、数据挖掘
- 4.1 pandas、sns工具类
- 五、kaggle赛事
- 5.1 NLP赛事
- 六、 其它赛事:
- 6.1 datawhale、Coggle数据科学赛事总结
- 6.2 NLP比赛
- 6.3 其它CV类比赛:
- 6.4 结构化比赛:
- 6.5 推荐系统
- 6.6 赛事技巧
- 七、datawhale组队学习相关:
- 7.1 组队学习课程
- 7.2 每月赛事学习:Coggle 30 Days of ML
- 八、深度学习、github资源
- 8.1 深度学习文章
- 8.2 github资源
- 九、Python
- 十、colab、markdown、模型训练等
- 十一、面试类、LeetCode刷题
- 十二、杂类:
收藏了各种文章、github资源、赛事top方案等等
一、.机器学习、深度学习库、优秀课程
1.1 资源库
- 《ApacheCN 深度学习译文集》、《PyTorch 中文教程 1.7》
- 《PyTorch官网教程》、 中文文档
- scikit-learn官网
- 各种语言、代码库官方API文档集合
- AI Studio帮助文档、paddle-github地址、paddle文档
- 《Jupyter Notebook:Python数据分析利器》
1.2 优秀课程
- 李沐《动手学深度学习 》中文第二版,github地址、课程主页
- paddleNLP资源合集(提取码u8dg )和哔哩哔哩视频、paddleOCR系列学习资料链接提取码:aabp
- 百度AI产品与应用学习路线、paddle应用实践、paddle课程
- 《自然语言处理》(车万翔)配套案例代码地址
- 《深度学习基础》
- Python语言(参考《python3.6.3中文手册》、《Python 3 教程》、《十万行代码》)、python3.10中文文档
1.3 优秀作者、公众号
- 网站《Python深度学习基于PyTorch》貌似是介绍了PyTorch官网的几乎所有内容。还有配套bilibili视频讲解《Python深度学习:基于Pytorch (合集)》
- 张贤笔记: 《PyTorch 学习笔记汇总(完结撒花)》、 [PyTorch 学习笔记] 6.1 weight decay 和 dropout
- 多多笔记 之《2021年如何科学的“微调”预训练模型?》
- 知乎:致Great、张贤同学、阿水公众号【Coggle数据科学】、鱼遇雨欲语与余公众号:Coggle数据科学、苏剑林、台运鹏
- kaggle:致Great、Venkatkumar R
- 苏剑林个人主页、github
二、NLP相关
2.1 NLP相关
-
生成对抗网络
- 功守道:NLP中的对抗训练 + PyTorch实现
- 《PaddleGAN预习课程》、《生成对抗网络七日打卡营》、PaddleGAN github地址
- 《讯飞——新闻文本分类》惊鹊代码
- bilibili视频、博客文章《NLP 中的对抗训练(附 PyTorch 实现)》
- 《NLP中的对抗训练》、《bert 对抗训练实现代码》
-
NLP中的数据增强
- 《一文了解NLP中的数据增强方法》及视频、《 基于自然语言解释的数据增强》、《【工大SCIR笔记】自然语言处理领域的数据增广方法》
- 《实际业务超好用的SimBERT》、伪标签《基于半监督或自监督解决文本分类中样本不均衡问题》
2.2 transformer资源
-
《使用huggingface transformers全家桶实现一条龙BERT训练和预测》
-
知识蒸馏Distilled BiLSTM论文解读《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 》,原文链接。
-
《The Annotated Transformer》:原文以及中文翻译、datawhale地址
-
《Attention Is All You Need 原始论文中英文对照翻译》
-
《苏神文章解析》
- 《浅谈Transformer的初始化、参数化与标准化》
- 《词向量与Embedding究竟是怎么回事?》
- 《Transformer如戏,全靠Mask》
-
transformer知识点:
-
《用可视化解构BERT,我们从上亿参数中提取出了6种直观模式》
-
深度学习之注意力机制
-
关于BERT和Transformer的易错点
-
知乎文章《史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案》
-
《超细节的BERT/Transformer知识点》
-
-
论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型、《A Survey of Transformers》英文pdf
-
深度学习论文翻译:Image Classification、Object Detection、OCR
-
图神经网络论文翻译及解读
-
刘知远老师-NLP研究入门之道
-
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史
-
苏剑林博客-关于Transformers的合集
-
(强推)李宏毅2021春机器学习课程:重点:self- attention ,transformer,Bert
-
Transformer【动手学深度学习v2】(李沐bilibili视频)
-
张贤笔记:
- [PyTorch 学习笔记] 6.1 weight decay 和 dropout
- Pytorch:model.train()和model.eval()用法和区别
2.3 Hugging Face:
- Hugging Face主页课程 1-3译文
- Summary of the tokenizers
- Using tokenizers from 🤗 Tokenizers
- 从头训练分词器,中文翻译见此贴第二节、《BPE、wordpiece、ULM三大分词原理》
- Loading a Dataset,dataset拆分和切片
- 从头开始预训练BERT模型、《pytorch loop微调预训练模型》
- 在modelpoint基础上训练语言模型、中文翻译可以查看:datawhale中文教程
- trainer参数设定参考:《huggingface transformers使用指南之二——方便的trainer》
- huggingface transformers使用指南(更新and待续)
- hugging face 官方文档——datasets、optimizer
- transformers/trainer.py
- 社区文档:社区transformer资源、notebook
2.4 其它文章
- Pytorch Bert+BiLstm文本分类
- 《torchtext.vocab构建词表》
三、CV相关
-
《CNN卷积神经网络》
-
清欢守护者《CV》(包括数据增强、cv论文、各种模型等等98篇)
-
太阳花的小绿豆,图像分类、目标检测等等
-
OpenMMLab、MMCV 中文文档、API文档
-
《Pillow速通教程》、pillow中文文档
四、数据挖掘
4.1 pandas、sns工具类
- 《速度起飞!替代 pandas 的 8 个神库》、Data Table 使用文档
- 《Seaborn官网》、《Seaborn 绘制 21 种超实用精美图表》、《Seaborn入门详细教程》、《一文学会Seaborn!》
五、kaggle赛事
5.1 NLP赛事
-
U.S. Patent Phrase to Phrase Matching(2022.3.21——2022.7.20)
- 数据分析《The Complete Overview》
- 1st place solution
- 2nd Place Solution
- 3rd place solution
- 5th solution: prompt is all you need
- 7th place solution - the power of randomness
- 8th place solution: Predicting Targets at Once Led Us to Gold
- 10th place Solution : Single model public lb 0.8562, private lb 0.8717
- 12th Place Solution
-
Feedback Prize - Evaluating Student Writing(2021.12.14——2.22.3.15)
Though a Named Entity Recognition competition as opposed to classification, the dataset contains 11,403 additional essays and 70,763 additional essay sections.- 数据分析.
- 1st solution with code(cv:0.748 lb:0.742)
- 2nd Place - Weighted Box Fusion and Post Process
- 3rd Place Solution w code and notebook
- 4th place solution - 🎖️ my first gold medal 🎖️ (+source code available!)
- 5’th place : simultaneous span segmentation and classification + WBF
- 6th place solution. A YOLO-like text span detector.
- 7th place solution
- 9th solution, deberta is the king, pure ensemble of bert models
- 10th solution
-
《NBME - Score Clinical Patient Notes》(2022.2.1——2022.3.3)
- 1st solution
- #2 solution
- 3rd Place Solution: Meta Pseudo Labels + Knowledge Distillation
- 4th place solution: Deberta models & postprocess
- 5th place solution
- 6th place solution
- 7th place solution: Get 0.892 in just 10 minutes
- 8th place solution
- 9th Weight search and threshold modification
-
《Jigsaw Rate Severity of Toxic Comments》(2021.11.8——2022.2.7)
- 1st place solution with code
- Toxic Solution and Review (2nd Place)
- 4th - This is Great! - Shared Solution
- 5th place solution
- 7th Place Solution
-
Jigsaw Unintended Bias in Toxicity Classification | 2019/2020
六、 其它赛事:
6.1 datawhale、Coggle数据科学赛事总结
- Datawhale competition-baseline汇总(github)、 Datawhale大满贯赛事文档、
- Coggle数据科学 competition-baseline汇总(gitee)、 Coggle年度原创文章汇总:各种竞赛总结
- 科大讯飞2021 AI开发者大赛算法赛(附30场比赛答辩视频)
- 《Kaggle 2021年 45场比赛&优胜方案汇总》
6.2 NLP比赛
-
2021 CCF 爱奇艺剧本角色情感识别赛道 baseline、致Great-baseline
-
《科大讯飞中文相似度 Top10》、中文问题相似度挑战赛0.9+paddle版本baseline
-
《datawhale-baseline-互联网新闻情感分析》
-
入门NLP - 新闻文本分类
- 《新闻文本分类(一)——TF-IDF》
- 新闻文本分类参考代码:惊鹊《Rank4 NLP新闻文本分类-开源代码+经验分享》及github
- 张贤的知乎代码解析:《阿里天池 NLP 入门赛 Bert 方案1》、 《 Bert 方案 -2 Bert 源码讲解》、 《Bert 方案 -3 Bert 预训练与分类》、github代码地址
- 赛事讨论区张帆等方案(task1-6)
- 冬于bert预训练和微调代码
- nlp群直播链接10-8第一期结构化赛题、10-4竞赛分享、10-8结构化赛题、学习资料
-
学术论文分类挑战赛0.79+paddle版本Baseline
-
CCKS2022通用信息抽取竞赛
-
科大讯飞《非标准化疾病诉求的简单分诊挑战赛2.0》,baseline
-
《新冠疫情相似句对判定大赛 线上第一名方案》
-
2022搜狐校园算法大赛 NLP赛道第一名方案分享
-
Kaggle 专利匹配比赛金牌方案赛后总结
-
STI比赛任务二:【答案检验基线方案以及思路分享】、完整代码
6.3 其它CV类比赛:
- 图像去模糊算法代码实践!
- 人脸关键点检测挑战赛(CV)、
6.4 结构化比赛:
- 《2021科大讯飞-车辆贷款违约预测赛事 Top1方案》
- 《KDD Cup 2021 时序异常检测(附 Top1 至 Top7思路视频 )》
- 入门数据挖掘 - 二手车交易价格预测
- 《电信客户流失预测挑战赛》、baseline
6.5 推荐系统
- 推荐系统——召回篇
- datawhale深度学习推荐系统
- 比赛总结:微信大数据挑战赛(内有决赛 Top1 至 Top7答辩视频 + PPT)
6.6 赛事技巧
-
特征选择算法大总结
-
Kaggle Top1% 是如何炼成的!
-
《【论文解读】文本分类上分利器:Bert微调trick大全》
七、datawhale组队学习相关:
7.1 组队学习课程
-
优秀作业:《天国之影笔记》、于冬笔记、初晓宇笔记、胡先生笔记、pytorch视频
-
2022年4月datawhale开源学习汇总
-
开源项目:深入浅出PyTorch
-
基于transformers的自然语言处理(NLP)入门、 nlp之情感分析(RNN/CNN/LSTM/BERT)
-
数据挖掘/机器学习、 数据可视化(matplotlib)、 动手学数据分析、清洗、重构、建模
-
计算机视觉(cv)、pandas数据处理与分析及讲解视频
-
集成学习(上)、集成学习(中)、 集成学习(下)、强化学习
-
统计学习要素(ELS)中文翻译、代码实现及其习题解答
-
Datawhale三月学习:动手学深度学习(Pytorch)(23年3月)
-
Datawhale四月学习:Datawhale 4月AIGC - ChatGPT从入门到应用 ,包含吴恩达 x OpenAI官方课程《hatGPT Prompt Engineering for Developers》的视频、项目地址(包含笔记)、进阶教程 Hugging LLM、
7.2 每月赛事学习:Coggle 30 Days of ML
- Coggle 30 Days of ML(21年10月)、打卡石墨文档、10月活动总结(含优秀打卡汇总)、
- 「Coggle 30 Days of ML」11月活动总结、打卡石墨文档
- 「Coggle 30 Days of ML」12月活动总结、打卡石墨文档
- Coggle 30 Days of ML(22年1&2月)
- Coggle 30 Days of ML 虎年3月竞赛学习、3月活动总结
- Coggle 30 Days of ML(22年7月)、活动总结
- Coggle 30 Days of ML(23年3月):意图识别任务,包括TFIDF、FastText、BERT、Prompt文本分类,BERT、T5和GPT原理等知识。
- l
八、深度学习、github资源
8.1 深度学习文章
- 深度神经网络模型训练中的 tricks(原理与代码汇总)
- 《【论文解读】文本分类上分利器:Bert微调trick大全》
- 《从ReLU到GELU,一文概览神经网络的激活函数》、《机器学习常用损失函数小结》
8.2 github资源
-
Advance Search快速查找GitHub资源
-
人工智能1,2,3班资料,(d5dq)
-
pytorch-sentiment-analysis
-
中文数据增强包、参考文献:[2019-EDA]EDA Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks
-
搭建博客
-
《《从零构建知识图谱:技术、方法与案例》代码》
九、Python
- 《让你的正则表达式可读性提高一百倍》,可以在正则表达式中写入注释,方便后面回看理解。
msg = '我叫青南,我的密码是:123kingname456,请注意保密。我要提取其中的密码123kingname456,那么我的正则表达式可能是这样的:pattern = ':(.*?),'
。通过使用re.VERBOSE可以在表达式中加入注释:
十、colab、markdown、模型训练等
-
《Python环境配置保姆教程(Anaconda、Jupyter、GPU环境)》
-
cloud tpu文档、colab使用方法总结、 Google Colab 使用说明(翻译)、Cloud TPU飞书总结
-
《pytorch里巧用optimizer.zero_grad增大batchsize》、苏剑林《用时间换取效果:Keras梯度累积优化器》、《【PyTorch基础教程4】反向传播与计算图》
-
markdown文档、公式格式调整(可以写作 f o r m u l a \mathbf {formula } formula)
-
防止自动断开连接
在colab页面,按Ctrl+Shit+i,打开检查页面(也可以右击鼠标,选择“检查”),并切换到控制台或terminal标签,chrome中为Console。
function ConnectButton(){console.log("Connect pushed"); document.querySelector("#top-toolbar > colab-connect-button").shadowRoot.querySelector("#connect").click()
}
setInterval(ConnectButton,60000);
- 知乎markdown发帖:《实用攻略:将markdown格式文档发表为知乎文章》、《知乎 on VSCode 》
在知乎发布markdown格式的帖子,可以在vscode中安装插件Zhihu On VSCode。
- 登录问题:输入Ctrl + Shift + P 打开命令面板,搜索并执行 Zhihu: Login 命令登录。如果后续一直显示
你已经登录了哦~undefined
,但是发布却显示没有登录。可以在浏览器输入https://www.zhihu.com/signup 打开网页,退出登录。之后再重新输入 Zhihu: Login 命令登录- 创建目录;输入命令
- 《如何在bilibili上传markdown》(html/markdown/等多文件互转)
- markdown/word互转:《markdown转word(两种方法,实现两者互转)》、《将 Word 转换为 Markdown格式 【详细教程】》
十一、面试类、LeetCode刷题
-
【剑指offer】高频ML/DL面试题(持续更新)
-
刷题攻略 知识星球《代码随想录》、 datawhale力扣项目
-
Datawhale面经小组,项目地址
-
算法工程师面试分享。提取码:ftxx
-
学习理论基石:学习五环法录制文件
-
毕业三年的经验分享
十二、杂类:
-
SigOpt(调参?)
-
trainner最原始的版本(trainner一开始是不存在的,可以看huggingface的examples里的代码,由于启动训练需要特别多的参数,而各个nlp任务又有很多通用的参数,就被抽象出来了trainner。trainner就是把训练开始之前需要的参数合并了起来)
-
《如何理解NLLLoss?》
-
深度学习500问
-
推荐书籍:Transformers-for-Natural-Language-Processing,张帆发的
-
神经网络与深度学习
-
Attention is all you need的Pytorch实现
-
Sentence Transformers:使用 BERT & Co 的多语言句子、段落和图像嵌入,Sentence Transformers文档
-
GPU 显存不足怎么办
-
ipynb文件转md:
jupyter nbconvert --to markdown notebook.ipynb
jm="jupyter nbconvert --to markdown"
jm docs/篇章4-使用Transformers解决NLP任务/4.1-文本分类.ipynb
jm docs/篇章4-使用Transformers解决NLP任务/4.2-序列标注.ipynb
- md文件转ipynb:
pip3 install jupytext --upgrade # 安装jupytext
jupytext --set-formats ipynb,md filename.md
如何在bilibili上传markdown