基于高通量测序技术的单细胞技术,使得我们能够在单个细胞水平解析多细胞生物发生发展规律。十余年来,通量与精度的提高一直是海量单细胞技术发展的内在趋势。新格元2021年推出基于化学标记的单细胞多样同测试剂盒:CLindex® Sample Multiplexing Kit,最高可实现一次实验16个样本的标记混合,搭配GEXSCOPE®高密度芯片可进一步提高细胞通量,从而精细刻画生物发育和疾病中的细胞异质性、鉴定稀有细胞亚型和状态、验证新的biomarker。新格元CLindex®技术基于化学基团标记,对不同物种的细胞具有良好的兼容性。
结合新格元单细胞系统,CLindex® 已经拥有样本制备到数据分析的完整流程:
tag pipeline (单细胞多样同测数据分析) 包含七个主要指令,可以通过 celescope tag {指令} --help 查看:
具体参数的详细说明,请参考GitHub:https://github.com/singleron-RD/CeleScope/blob/master/docs/tag/multi_tag.md
conda activate celescope
celescope tag --help
usage: celescope tag [-h]
{sample,barcode,cutadapt,mapping_tag,count_tag,analysis_tag,split_tag}
...
Single-cell tag
positional arguments: # 七个主要的指令
{sample,
barcode,
cutadapt,
mapping_tag,
count_tag,
analysis_tag,
split_tag}
optional arguments:
-h, --help show this help message and exit
$ tree -L 2
.
|-- fastqs
| |-- tag_1.fq.gz
| `-- tag_2.fq.gz
|-- smk_barcode.fa
|-- tag_barcode.fasta
`-- tag_linker.fasta
下面是测试脚本:
$ tree -L 2
.
|-- run_shell.sh
`-- tag.mapfile
CLindex®单细胞多样同测研究在实验过程中会构建一个转录组文库和一个样本标签文库,因此数据分析也就分为两个环节:
(1) 样本标签文库测序
(2) CLindex®单细胞多样同测分析
本篇文章内只介绍 CLindex®单细胞多样同测分析 ,而celescope分析单细胞转录组数据的教程已在上一期中进行介绍。后续的分析流程和单细胞转录组分析保持一致的,唯一不同的就是要进行样本标签进行拆分。
在分析之前我们先要激活我们celescope软件的运行环境,可以使用 conda activate celescope 命令进行激活。
$ tree -L 1
.
|-- run_shell.sh
`-- tag.mapfile
然后就是接下来使用的两个重要的配置文件,run_shell.sh 和 tag.mapfile.sh
tag /singleron/celescope_test_data/vdj/fastqs tag_test /singleron/celescope_test_data/rna/shell/rna_test
tag /singleron/celescope_test_data/vdj/fastqs tag_test /singleron/celescope_test_data/rna/shell/rna_test
另一个是 shell 脚本文件:run_shell.sh
multi_tag \
--mapfile ./tag.mapfile\
--mod shell\
--barcode_fasta /mnt/sdd/singleron_training_class/resources/celescope_test/tag/smk_barcode.fa\
--fq_pattern L25C45\ # 早期为45,现在多为L25C15
--split_matrix
第一行 --mapfile 用于帮助程序找到测序数据的位置,对应上一步编辑好的 mapfile 的文件位置(写到文件) 第二行 --mod 确定生成的脚本类型
第三行 --barcode_fasta 样本标签 barcode 序列的文件,形式如下,示例采用的是45个碱基的标签barcode
$ cat smk_barcode.fa
>SMK0
GGGCGTCTGTGACCGCGTGATACTGCATTGTAGACCGCCCAACTC
>SMK1
TTCCTCCAGAGGAGACCGAGCCGGTCAATTCAGGAGAACGTCCGG
>SMK2
AGGGCTAGGCGTGTCATTTGGCGAGGTCCTGAGGTCATGGAGCCA
>SMK3
CACTGGTCATCGACACTGGGAACCTGAGGTGAGTTCGCGCGCAAG
第四行 --fq_pattern 对应第三行barcode序列文件的标签模式指定,L 是 Linker,C 是 Barcode,后面的数字指定它们包含的碱基数
第五行 --split_matrix 默认为 True,使用该参数将根据 tag 标签拆分 scRNA-Seq 矩阵文件
(1)运行刚编辑好的shell脚本run_shell.sh
$ tree -L 1
.
|-- run_shell.sh
|-- shell
`-- tag.mapfile
(2)运行完以后就可以自动生成一个名称为 shell 的文件目录。
$ tree -L 1
.
|-- run_shell.sh
|-- shell
`-- tag.mapfile
shell文件夹中会有一个以tag_test命名的脚本运行存储数据的目录,以及一个运行的shell脚本tag_test.sh,tag_test.sh脚本中的每行指令对应每一步分析(质控报告的每一部分数据)。
进入到shell目录中,就可以运行shell脚本tag_test.sh
,然后在终端命令行中输入nohup sh tag_test.sh &
。将脚本提交到后台运行,具体细节已在上一期中详细介绍过了,就不过多赘述了。
$ tree -L 1
.
|-- tag_test
|-- tag_test.sh
`-- nohup.out
如果对每一步做了什么感兴趣,可以单独运行查看,tag_test.sh 里面是:
$ cat tag_test.sh
celescope tag sample --outdir .//tag_test/00.sample --sample tag_test --assay tag --thread 4 --chemistry auto --fq1 /mnt/sdd/singleron_training_class/resources/celescope_test/tag/fastqs/tag_1.fq.gz
celescope tag barcode --outdir .//tag_test/01.barcode --sample tag_test --assay tag --thread 4 --chemistry auto --lowNum 2 --fq1 /mnt/sdd/singleron_training_class/resources/celescope_test/tag/fastqs/tag_1.fq.gz --fq2 /mnt/sdd/singleron_training_class/resources/celescope_test/tag/fastqs/tag_2.fq.gz
celescope tag cutadapt --outdir .//tag_test/02.cutadapt --sample tag_test --assay tag --thread 4 --minimum_length 20 --nextseq_trim 20 --overlap 10 --insert 150 --fq .//tag_test/01.barcode/tag_test_2.fq
celescope tag mapping_tag --outdir .//tag_test/03.mapping_tag --sample tag_test --assay tag --thread 4 --fq_pattern L25C45 --barcode_fasta /mnt/sdd/singleron_training_class/resources/celescope_test/tag/smk_barcode.fa --fq .//tag_test/02.cutadapt/tag_test_clean_2.fq
celescope tag count_tag --outdir .//tag_test/04.count_tag --sample tag_test --assay tag --thread 4 --UMI_min auto --dim 1 --SNR_min auto --coefficient 0.1 --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test_resort/rna_test_resorts/shell/rna_test/ --read_count_file .//tag_test/03.mapping_tag/tag_test_read_count.tsv
celescope tag analysis_tag --outdir .//tag_test/05.analysis_tag --sample tag_test --assay tag --thread 4 --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test_resort/rna_test_resorts/shell/rna_test/ --tsne_tag_file .//tag_test/04.count_tag/tag_test_tsne_tag.tsv
celescope tag split_tag --outdir .//tag_test/06.split_tag --sample tag_test --assay tag --thread 4 --split_matrix --match_dir /mnt/sdd/singleron_training_class/resources/celescope_test_resort/rna_test_resorts/shell/rna_test/ --umi_tag_file .//tag_test/04.count_tag/tag_test_umi_tag.tsv
运行完成后,可以看一下结果文件,其目录如下:
$ tree
.
|-- 00.sample
| `-- stat.txt
|-- 01.barcode
| |-- stat.txt
| `-- tag_test_2.fq
|-- 02.cutadapt
| |-- cutadapt.log
| |-- stat.txt
| `-- tag_test_clean_2.fq
|-- 03.mapping_tag
| |-- stat.txt
| `-- tag_test_read_count.tsv
|-- 04.count_tag
| |-- stat.txt
| |-- tag_test_cluster_count.tsv
| |-- tag_test_cluster_plot.pdf
| |-- tag_test_tsne_tag.tsv
| `-- tag_test_umi_tag.tsv
|-- 05.analysis_tag
| `-- stat.txt
|-- 06.split_tag
| |-- matrix
| | |-- SMK0_matrix_10X
| | | |-- barcodes.tsv
| | | |-- genes.tsv
| | | `-- matrix.mtx
| | |-- SMK3_matrix_10X
| | | |-- barcodes.tsv
| | | |-- genes.tsv
| | | `-- matrix.mtx
| | `-- Undetermined_matrix_10X
| | |-- barcodes.tsv
| | |-- genes.tsv
| | `-- matrix.mtx
| `-- stat.txt
`-- tag_test_report.html
当运行完结束,就可以得到一个单细胞多样同测数据的网页版标准报告。
附录1:结果文件和下游文件提取
下游文件提取
05.count_tag 细胞按标签分群后的统计信息,包括 tag 对应的 tSNE 降维图等
06.split_tag 下有按样本标签拆分好的细胞基因表达矩阵,SMK0 和 SMK3 是样本标签序列的编号,Undetermined 是未被标签标记的细胞表达矩阵
tag_test_repot.html 标准报告的 html 文件
以上就是一个完整的新格元CLindex®单细胞多样同测试剂盒分析流程,接下来就可以进行数据分析了,如果您这边用的免疫受体的多样同测,也可以使用mul_tag进行分析,基本流程也是类似的。
本文仅做软件安装测试使用,更多软件更新信息参见:https://github.com/singleron-RD/CeleScope
电 话:025-58165529
业务咨询:025-58165526
售后电话:025-58862675
电子邮件:singleron@singleronbio.com
售后邮箱:product-service-support@singleronbio.com
地 址:南京市江北新区药谷大道11号加速器二期06栋3-5层
Copyright © 2021 新格元生物科技
网站建设:华科互动