测序文章数据上传找哪里

在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。

注册账户、填写MetaSheet

  • 在NCBI GEO官网注册一个账号,然后登陆。

  • 点击Submission Guidelines 。 从中查找,并下载, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。GEOarchive spreadsheet formatMetadata  spreadsheet

  • 下载完之后填写表格。表格中有2个样例表,可以参考着填写。

    • 表格里面需要的MD5值在Linux下可以使用命令来获取; Windows下可以在网上搜索一个MD5值计算工具,比如 http://www.winmd5.com/。md5sum filename

  • 数据上传,原始测序的fastq一般采用gzip压缩后上传。

    • 在Linux系统,使用的是上传; Windows可以使用FileZilla.lftp

Linux下lftp上传

为了方便lftp上传,我写了一个bash脚本, 命名为,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。GEO_upload.sh

GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/

为了简单方便,里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。localdir

#!/bin/bash

#set -x
set -e
set -uusage()
{
cat <<EOF >&2
${txtcyn}
Usage:$0 options${txtrst}${bldblu}Function${txtrst}:This script is used to upload files to an FTP server using lftp.${txtbld}OPTIONS${txtrst}:-f    FTP address ${bldred}[NECESSARY]${txtrst}-u    User name ${bldred}[NECESSARY]${txtrst}-p    Password ${bldred}[NECESSARY]${txtrst}-t    Target dir ${bldred}[NECESSARY]${txtrst}-s    Source dir ${bldred}[NECESSARY]${txtrst}    
EOF
}ftp=
user=
passwd=
target=
source_dir=while getopts "hf:u:p:t:s:" OPTION
docase $OPTION inh)usageexit 1;;f)ftp=$OPTARG;;u)user=$OPTARG;;p)passwd=$OPTARG;;t)target=$OPTARG;;s)source_dir=$OPTARG;;?)usageexit 1;;esac
doneif [ -z $ftp ]; thenusageexit 1
ficat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
ENDlftp -f lftp.script

Filezilla上传

  • 如图所示,填写好登录所需的信息,然后双击进入目录。fasp

  • 在右侧窗口,点击右键,选择。创建目录并进入

  • 将左侧窗口要上传的文件拖动到右侧窗口,开始上传。

  • 在菜单栏的——选择即可实现断点续传。传输对已存在文件的默认操作上传-继续文件传输

  • 设置:重连次数编辑-设置-最大重试次数 99; 登陆重试延时 200; 超时秒数 20

上传完成后,需要给GEO的管理人员写一封邮件,大体内容如下:

Receiver: geo@ncbi.nlm.nih.govSubject: ftp uploadContext:Dear Sir/Madam, Thanks for you kindly host such great public data resource.I have successfully transferred my data to NCBI-GEO ftp sever. Here is the information you may be needed for further processing1. GEO account username: 我的GEO用户名
2. Names of the directory and files deposited: 文件上传的路径, 对应上
面的fasp/detination_dir/
3. Public release date: 2018-12-31 文件释放时间,一般可以设置的比较远If there is any format or content problem,  please do not hesitate to
contact me.Best, Name

获取GEO号

待GEO的工作人员审核处理后,你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。

Linux下智能上传

另外还可以借助airflow,使得上传更加自动化,具体程序见 GEO_upload.py。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/496646.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

“事务认证平台”:个人日常事务管理系统的诚信体系建设

3.1系统体系结构 系统的体系结构非常重要&#xff0c;往往决定了系统的质量和生命周期。针对不同的系统可以采用不同的系统体系结构。本系统为个人日常事务管理系统&#xff0c;属于开放式的平台&#xff0c;所以在体系结构中采用B/s。B/s结构抛弃了固定客户端要求&#xff0c;…

单片机与MQTT协议

MQTT 协议简述 MQTT&#xff08;Message Queuing Telemetry Transport&#xff0c;消息队列遥测传输协议&#xff09;&#xff0c;是一种基于发布 / 订阅&#xff08;publish/subscribe&#xff09;模式的 “轻量级” 通讯协议&#xff0c;该协议构建于 TCP/IP 协议上&#xf…

小程序基础 —— 07 创建小程序项目

创建小程序项目 打开微信开发者工具&#xff0c;左侧选择小程序&#xff0c;点击 号即可新建项目&#xff1a; 在弹出的新页面&#xff0c;填写项目信息&#xff08;后端服务选择不使用云服务&#xff0c;开发模式为小程序&#xff0c;模板选择为不使用模板&#xff09;&…

【js】记录预览pdf文件

接口调用拿到pdf的文件流&#xff0c;用blob处理这个文件流拿到url&#xff0c;使用window.open跳转新的窗口进行预览 api({dataType: blob, }).then(res >{if(res.code 0){this.previewPDF(res,application/pdf;charsetutf-8,pdf文件名)} })previewPDF (res, type, fname…

《机器学习》——利用OpenCV库中的KNN算法进行图像识别

文章目录 KNN算法介绍下载OpenCV库实验内容实验结果完整代码手写数字传入模型训练 KNN算法介绍 一、KNN算法的基本要素 K值的选择&#xff1a;K值代表选择与新测试样本距离最近的前K个训练样本数&#xff0c;通常K是不大于20的整数。K值的选择对算法结果有重要影响&#xff0c…

“拍卖认证平台”:网上拍卖系统的诚信体系建设

2.1 B/S结构介绍 在早期&#xff0c;一些使用HTML语言编写的文件&#xff0c;再集合一些其它资源文件就可以组成一个最简单的Web程序&#xff0c;了解了Web程序也需要了解Web站点&#xff0c;它们之间的关系就是一个或者多个Web程序可以放在Internet上的一个Web站点&#xff08…

【AIGC篇】AIGC 引擎:点燃创作自动化的未来之火

&#xff1a;羑悻的小杀马特.-CSDN博客 未来都是惊喜。你生来本应为高山。并非草芥。 引言&#xff1a; 在当今数字化的时代&#xff0c;人工智能生成内容&#xff08;AIGC&#xff09;正以一种前所未有的力量改变着我们的创作领域。它就像一个神秘而强大的魔法师&#xff0c;…

C++:单例模式

创建自己的对象&#xff0c;同时确保对象的唯一性。 单例类只能有一个实例☞静态成员static☞静态成员 必须类外初始化 单例类必须自己创建自己的唯一实例 单例类必须给所有其他对象提供这一实例 静态成员类内部可以访问 构造函数私有化☞构造函数私有外部不能创建&#x…

day26 文件io

函数接口 1 .open和close 文件描述符&#xff1a;系统为用open打开的文件分配的标识符 非负的整形数据 0-1023 最小未被使用原则 使用完时及时释放&#xff0c;避免文件描述符溢出 文件描述溢出就是文件使用完没有及时关闭文件 int open(const char *pathname, int flags); /…

mysql索引的理解

1、索引是什么&#xff1f; 索引&#xff1a;简单理解就是我们字典的目录&#xff0c;一个索引可以找得到多个记录。 作用加快我们数据库的查询速度。索引本身较大&#xff0c;往往存储在磁盘的文件里。可能存储在单独的索引文件中&#xff0c;也可能和数据一起存储在数据文件…

Leetcode打卡:查询数组中元素出现的位置

执行结果&#xff1a;通过 题目 3159 查询数组中元素出现的位置 给你一个整数数组 nums &#xff0c;一个整数数组 queries 和一个整数 x 。 对于每个查询 queries[i] &#xff0c;你需要找到 nums 中第 queries[i] 个 x 的位置&#xff0c;并返回它的下标。如果数组中 x 的出…

Overleaf中设置表格中的字体为Times New Roman

在Overleaf中设置表格中的字体为Times New Roman 需要有这个字体包 使用 \usepackage{times} 宏包 在文档的导言区添加 \usepackage{times} 宏包,这将把整个文档的字体设置为Times New Roman,包括表格中的字体。例如:\documentclass{article} \usepackage{times} \begin{…

如何理解 CNN 中的 RGB 图像和通道?

本文为合集收录&#xff0c;欢迎查看合集/专栏链接进行全部合集的系统学习。 合集完整版请参考这里。 在灰度图一节的最后&#xff0c;给出了一个由彩色图片转成灰度图的示例&#xff0c;并且通过 color_image.mode获取了图片的格式&#xff1a;彩色图片获取到的格式为 RGBA&a…

可灵1.6正式上线,图生视频再创新视界

大家最近有刷到过这几个视频吗&#xff1f; “一觉醒来&#xff0c;罗马斗兽场塌了”&#xff0c;可达鸭睡塌了罗马斗兽场&#xff01; 【视频来源于网络&#xff0c;侵删】 “卡比兽把一碗雪倒扣在富士山上&#xff0c;富士山瞬间被雪覆盖” 【图片来源于网络&#xff0c;侵删…

微积分复习(微分方程)

1,一阶微分方程 可分离的微分方程: 可以把x和y分列等号两边,然后求积分可以解决 齐次方程和准齐次方程 要求是 :yf(y/x),也就是没有单独的x项,我们可以通过设ty/x来统一变量方便我们运算 准齐次方程就是常数项不统一,我们可以将Xxa,Yyb来消灭常数项进而转化为齐次形式…

【火猫DOTA2】VP一号位透露队伍不会保留原阵容

1、最近VP战队的一号位选手Kiritych在直播中透露,VP战队的阵容将会有新的变动,原有的阵容将不再保留。 【目前VP战队阵容名单如下】 一号位:Kiritych 二号位:squad1x 三号位:Noticed 四号位:Antares 五号位:待定 2、Spirit的战队经理Korb3n在直播时谈到了越来越多的职业选…

两分钟解决:vscode卡在设置SSH主机,VS Code-正在本地初始化VSCode服务器

问题原因 remote-ssh还是有一些bug的&#xff0c;在跟新之后可能会一直加载初始化SSH主机解决方案 1.打开终端2.登录链接vscode的账号&#xff0c;到家目录下3.找到 .vscode-server文件,删掉这个文件4.重启 vscode 就没问题了

[银河麒麟] Geogebra

Geogebra 几何作图工具 是一款跨平台的几何作图工具软件&#xff0c; 目前已经覆盖了&#xff0c; windows&#xff0c;android&#xff0c; mac, linux 等操作系统。 Geogebra 官网 Geogebra 官网提供了 Geogebra 5.0 版本下载包, Linux Portable 双击 geogebra-portable…

一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类

机器学习实战通常是将理论与实践结合&#xff0c;通过实际的项目或案例&#xff0c;帮助你理解并应用各种机器学习算法。下面是一个简单的机器学习实战例程&#xff0c;使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集&#xff08;Iris Dataset&#xff09;**的…

浅谈下雪花算法的原理,及在项目中使用需要注意哪些事项

目录 背景 雪花算法原理 算法特点 注意事项 总结 背景 雪花算法是一种分布式ID生成算法&#xff0c;由Twitter提出&#xff0c;用于在分布式系统中生成全局唯一的ID。该算法通过将64位的长整型数字分为符号位、时间戳、工作机器ID和序列号四个部分&#xff0c;确保了ID的…