人体除了具有先天免疫系统以外,还具有获得性免疫系统(又称为适应性免疫系统或特异性免疫系统)。获得性免疫系统通过后天刺激而形成,能识别并清除多种病原体以保护组织正常,主要由B细胞和T细胞表面的抗原受体组成(BCR、TCR)。BCR和TCR都是由两条不同的链连接而成,BCR包含免疫球蛋白重链(heavy chain)和轻链(light chain),TCR为α链和β链。 BCR的重链以及TCR的β链序列由V(viable)-D(diversity)-J(join)三部分组成,而BCR轻链及TCR的α链则只有V和J两部分。通过V-D-J片段的随机重组,V-D、D-J片段连接区的碱基随机插入删除,以及超突变(hypermutation)使得免疫组库的编码序列异常丰富,从而形成了人体内复杂的免疫组库系统。
GEXSCOPE生成的单细胞免疫组库数据的基本流程。它执行预处理、UMI一致性、vdj序列比对、UMI过滤和克隆类型计数。
vdj pipeline (单细胞免疫组库分析) 包含五个主要指令,可以通过 celescope vdj {指令} --help 查看:
conda activate celescope
celescope vdj --help
usage: celescope vdj [-h]
{sample,barcode,cutadapt,consensus,mapping_vdj,count_vdj}
...
Single-cell vdj
positional arguments:
{sample,barcode,cutadapt,consensus,mapping_vdj,count_vdj}
optional arguments:
-h, --help show this help message and exi
mkdir test_dir
cd test_dir
git clone https://github.com/singleron-RD/celescope_test_data.git
git clone https://github.com/singleron-RD/celescope_test_script.git
当然,也可以在gitee上下载:
mkdir test_dir
cd test_dir
git clone https://gitee.com/singleron-rd/celescope_test_data.git
git clone https://gitee.com/singleron-rd/celescope_test_script.git
所有的软件DEMO测试数据我们已经在celescoperna的教程中下载过,这里可以看一下vdj 数据的结构,让我们看一看下载的测试数据
$ tree
.
|-- fake_match_dir
| `-- 05.count
| `-- fake_match_dir_matrix_10X
| `-- barcodes.tsv
`-- fastqs
|-- tcr_1.fq.gz
`-- tcr_2.fq.gz
下面是测试脚本:
cd vdj
$ tree -L 2
.
|-- run_shell.sh
`-- tcr.mapfile
单细胞免疫组库研究在实验过程中会构建一个转录组文库和一个免疫受体富集文库,因此数据分析也就分为两个环节:
(1) 单细胞转录组分析
(2) 单细胞免疫受体分析 本篇文章内只介绍 单细胞免疫受体数据分析 ,而celescope分析单细胞转录组数据的教程已经在上一期中进行介绍。此外,如果只想做免疫受体方面的研究,也可以单独建单细胞免疫组库进行分析,后续的分析流程也都是一致的。
在分析之前我们先要激活我们celescope软件的运行环境,可以使用conda activate celescope命令进行激活。
(base) singleron 13:20:48 /vdj
$ conda activate celescope
(celescope) singleron 13:21:18 /vdj
然后就是接下来要使用的两个重要的配置文件,tcr.mapfile
和run_shell.sh
$ tree -L 1
.
|-- run_shell.sh
`-- tcr.mapfile
配置 mapfile文件--mapfile是multi_vdj下的参数,需要提供一个制表符分隔 (tab-delimited) 的文本文件。mapfile 的每一行代表双端 (paired-end) fastq文件。
tcr /singleron/celescope_test_data/vdj/fastqs vdj_test /singleron/celescope_test_data/vdj/fake_match_dir
其中,第一列 vdj_fastq_ID:对应 vdj_fastq文件的名称前缀
第二列 vdj_datapath:对应 vdj_fastq文件的路径
第三列 vdj_sample_name:对应质控报告的名称
第四列:对应与其“配对的”单细胞转录组分析 “fake_match_dir” 路径
另一个是 shell 脚本文件:run_shell.sh
(1)运行刚编辑好的shell脚本run_shell.sh
$ sh run_shell.sh
(2)运行完以后就可以自动生成一个名称为shell的文件目录。
$ tree -L 1
.
|-- run_shell.sh
|-- shell
`-- tcr.mapfile
shell文件夹中会有一个以vdj_test命名的脚本运行存储数据的目录,以及一个运行的shell脚本vdj_test.sh,vdj_test.sh脚本中的每行指令对应每一步分析(质控报告的每一部分数据)。
进入到shell目录中,就可以运行脚本vdj_test.sh,然后在终端命令行中输入sh vdj_test.sh。那么程序就会在当前的终端界面运行。但是,如果在当前的终端界面中进行运行,终端界面就不能关闭,也不能掉线。那么,为了避免这种情况的发生,我们可以使用nohup将运行脚本提交到后台运行,执行nohup sh vdj_test.sh &,然后会生成一个nohup.out的日志文件。
$ tree -L 1
.
|-- vdj_test
|-- vdj_test.sh
`-- nohup.out
如果对每一步做了什么感兴趣,可以单独运行查看,vdj_test.sh 里面是:
cat test1.sh
celescope vdj sample --outdir .//test1/00.sample --sample test1 --assay vdj --thread 4 --chemistry auto --fq1 /mnt/sdd/singleron_training_class/resources/celescope_test/celescope_test_data/vdj/fastqs/tcr_1.fq.gz
celescope vdj barcode --outdir .//test1/01.barcode --sample test1 --assay vdj --thread 4 --chemistry auto --lowNum 2 --fq1 /mnt/sdd/singleron_training_class/resources/celescope_test/celescope_test_data/vdj/fastqs/tcr_1.fq.gz --fq2 /mnt/sdd/singleron_training_class/resources/celescope_test/celescope_test_data/vdj/fastqs/tcr_2.fq.gz
celescope vdj cutadapt --outdir .//test1/02.cutadapt --sample test1 --assay vdj --thread 4 --minimum_length 20 --nextseq_trim 20 --overlap 10 --insert 150 --fq .//test1/01.barcode/test1_2.fq
celescope vdj consensus --outdir .//test1/03.consensus --sample test1 --assay vdj --thread 4 --threshold 0.5 --min_consensus_read 1 --fq .//test1/02.cutadapt/test1_clean_2.fq
celescope vdj mapping_vdj --outdir .//test1/04.mapping_vdj --sample test1 --assay vdj --thread 4 --type TCR --species hs --fq .//test1/03.consensus/test1_consensus.fq
celescope vdj count_vdj --outdir .//test1/05.count_vdj --sample test1 --assay vdj --thread 4 --type TCR --UMI_min auto --iUMI 1 --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test/celescope_test_data/vdj/fake_match_dir --UMI_count_filter_file .//test1/04.mapping_vdj/test1_UMI_count_filtered.tsv
运行完成之后,可以看一下结果文件,其目录如下:
$tree
.
|-- 00.sample
| `-- stat.txt
|-- 01.barcode
| |-- stat.txt
| `-- test1_2.fq
|-- 02.cutadapt
| |-- cutadapt.log
| |-- stat.txt
| `-- test1_clean_2.fq
|-- 03.consensus
| |-- stat.txt
| |-- test1_consensus.fq
| |-- test1_sorted.fq.tmp
| `-- tmp
|-- 04.mapping_vdj
| |-- stat.txt
| |-- test1_UMI_count_filtered.tsv
| |-- test1_UMI_count_unfiltered.tsv
| |-- test1_align.txt
| |-- test1_alignments.txt
| |-- test1_not_align.fq
| `-- test1_read2.vdjca
|-- 05.count_vdj
| |-- stat.txt
| |-- test1_cell_confident.tsv
| |-- test1_cell_confident_count.tsv
| |-- test1_clonetypes.tsv
| `-- test1_match_clonetypes.tsv
`-- test1_report.html # 测序数据质量、捕获细胞数、中值UMI数、饱和度、克隆类型统计的分析报告
当我们运行完以后,就可以得到一个单细胞免疫组库的网页版报告。
好啦,以上就是一个完整的新格元单细胞细胞免疫受体数据分析流程,接下来就可以进行深入的克隆型多样性分析啦。
本文仅做软件安装测试使用,更多软件更新信息参见:https://github.com/singleron-RD/CeleScope
电 话:025-58165529
业务咨询:025-58165526
售后电话:025-58862675
电子邮件:singleron@singleronbio.com
售后邮箱:product-service-support@singleronbio.com
地 址:南京市江北新区药谷大道11号加速器二期06栋3-5层
Copyright © 2021 新格元生物科技
网站建设:华科互动