本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。
1
WriteGPT
-
更新时间:2024-03-31
-
访问地址: GitHub
-
描述:
WriteGPT是基于OCR、NLP领域的最新模型所构建的生成式文本创作AI框架,目前第一版finetune模型针对高考作文(主要是议论文),可以有效生成符合人类认知的文章,多数文章经过测试可以达到正常高中生及格作文水平。
是基于EAST、CRNN、Bert和GPT-2语言模型的高考作文生成AI,支持bert tokenizer,当前版本基于clue chinese vocab,拥有17亿参数多模块异构深度神经网络,超2亿条预训练数据,线上点击即用的文本生成效果demo:17亿参数作文杀手,是端到端生成,从试卷识别到答题卡输出一条龙服务。
-
数据集网址:
https://github.com/Turing-Project/WriteGPT
2
lobe-chat
-
更新时间:2024-12-31
-
访问地址: GitHub
-
描述:
一个开源的,现代设计的LLMS/人工智能聊天框架。支持多人工智能供应商(OpenAI/Claude 3/Gemini/Ollama/Bedrock/Azure/Mistral/Conspirity),多模态(Vision/TTS)和插件系统。一键免费部署您的私人ChatGPT聊天应用程序。
-
数据集网址:
https://github.com/find-xposed-magisk/lobe-chat
3
Thor
-
更新时间:2024-12-29
-
访问地址: GitHub
-
描述:
Thor(雷神托尔) 是一款强大的人工智能模型管理工具,其主要目的是为了实现多种AI模型的统一管理和使用。通过Thor(雷神托尔),用户可以轻松地管理和使用众多AI模型,而且Thor(雷神托尔)兼容OpenAI的接口格式,使得使用更加方便。
-
用途:
管理功能:支持用户管理,渠道管理以及token管理,简化了管理流程。
数据统计预览:可以清晰地看到各种数据的统计情况,帮助用户更好地了解使用情况。
日志查看:支持日志查看,方便用户跟踪和解决问题。
系统设置:可以根据需要进行各种系统设置。
外部Chat链接接入:支持接入外部Chat链接,提升交互体验。
支付宝购买账号余额:提供支付宝购买账号余额的功能,方便用户进行充值。
-
数据集网址:
https://github.com/AIDotNet/Thor
4
awesome-ai-tool
-
更新时间:2024-12-06
-
访问地址: GitHub
-
描述:
"Awesome AI Tool" 是一个精选的人工智能工具集合,涵盖机器学习、深度学习、NLP等领域,帮助开发者快速找到最适合的AI工具和资源。欢迎贡献优秀项目,共同打造最全面的AI工具库。
-
数据集网址:
https://github.com/XiaomingX/awesome-ai-tool
5
JavaVision
-
更新时间:2024-03-29
-
访问地址: GitHub
-
描述:
JavaVision是一个基于Java开发的全能视觉智能识别项目。该项目起源于对图像处理和人工智能领域的热情,以及对Java作为主要编程语言的坚持。在AI领域,大多数解决方案都是使用Python实现的,因此决定充分利用Java的优势来构建一个功能强大且易于集成的视觉智能识别平台。
-
数据集网址:
https://github.com/javpower/JavaVision
6
-eBPF-
-
更新时间:2024-12-30
-
访问地址: GitHub
-
描述:
Agent是一个基于eBPF技术的容器异常检测框架,旨在通过收集容器的行为特征和指标特征,利用人工智能算法自动识别具有异常行为的容器。
Agent 使用 Linux eBPF 技术在运行时监控系统和应用程序,分析收集的数据以检测可疑行为。它具备性能分析、容器集群网络可视化、容器安全警报、一键部署和持久化存储监控等功能,支持多种 eBPF 追踪点,且易于扩展。核心导出器和命令行工具的二进制程序最小仅需约 4MB,能够在支持的 Linux 内核上运行。
在企业生产环境中应用Agent项目,可以提升系统安全性和可靠性,优化性能,简化运维管理,并增强合规性,通过实时监控、自动化异常检测和详细审计日志,帮助企业及时发现和处理安全威胁,优化资源配置,降低运维成本,确保符合行业标准和法规。
-
数据集网址:
https://github.com/ZongaoHuang/-eBPF-
7
LangChain-Tutorials-and-Examples
-
更新时间:2024-07-02
-
访问地址: GitHub
-
描述:
LangChain结合了大型语言模型、知识库和计算逻辑,可以用于快速开发强大的AI应用。这个仓库包含了我对LangChain的学习和实践经验,包括教程和代码案例。让我们一起探索LangChain的可能性,共同推动人工智能领域的进步!
-
数据集网址:
https://github.com/aihes/LangChain-Tutorials-and-Examples
8
HuaTuoAI
-
更新时间:2024-09-06
-
访问地址: GitHub
-
描述:
基于人工智能的中医图像分类, 本存储库包含一个针对中药的人工智能图像分类系统。该项目的目标是通过输入图像准确识别和分类各种中草药和成分。这个仓库里藏着一个神秘的宝藏——一个专为中药打造的人工智能图像分类系统。就像一位奇幻冒险中的导航者,这个项目的任务是将神秘的图像输入,变幻成准确的中草药和成分分类。让我们一起揭开这个数字世界中的迷雾,解锁植物的秘密,用技术和智能描绘中药的未知领域。
-
数据集网址:
https://github.com/ctkqiang/HuaTuoAI
9
algorithmStar
-
更新时间:2024-12-06
-
访问地址: GitHub
-
描述:
as机器学习库支持各种度量系数的计算,同时具有knn,决策树,线性回归等机器学习基础算法计算组件的实现,其还具有SQL式编程的数据计算库,与强大的机器视觉库,能够轻松实现各种人工智能处理需求。
-
数据集网址:
https://github.com/BeardedManZhao/algorithmStar?tab=readme-ov-file
10
TeleChat2
-
更新时间:2024-12-27
-
访问地址: GitHub
-
描述:
星辰语义大模型TeleChat2是由中国电信人工智能研究院研发训练的大语言模型,该系列模型完全基于国产算力训练。
本次开源的 TeleChat2-3B、TeleChat2-7B、TeleChat2-35B 模型已支持工具调用功能。在 Function Call 方面,我们针对性进行了效果优化,在相关榜单评测上相比同尺寸模型均有较好表现。
TeleChat2-115B模型采用10万亿 Tokens中英文高质量语料进行训练,同步开源对话模型TeleChat2-115B的多格式、多平台权重文件。
TeleChat2在训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比TeleChat1均有大幅提升。
在微调数据方面,我们进行了指令复杂性提升与多样性扩充,通过数据合成和人工标注生成高质量数据,并使用拒绝采样生成多样的推理路径;通过研究一套基于base模型反向选择偏好对齐数据方案,基于适配数据最大限度提升模型效果。
-
数据集网址:
https://github.com/Tele-AI/TeleChat2