outdir='output dir'
gsample='XYRD-WTSH814-E'
gfq1='XYRD-WTSH814-E_S6_L006_R1_001.fastq.gz'
gfq2='XYRD-WTSH814-E_S6_L006_R2_001.fastq.gz'
asample='XYRD-WTSH814-A'
afq1='XYRD-WTSH814-A_S5_L006_R1_001.fastq.gz'
afq2='XYRD-WTSH814-A_S5_L006_R2_001.fastq.gz'

core='16' # 设置核数
memory='60' # 设置内存使用量
bedtoolspath='bedtools path'

species='human or mouse'
refpath='reference path'
genomefa='reference path/fasta/genome.fa'
genomeDir='reference path/star'
gtf='reference path/genes/genes.gtf'
annords='file/Anno_EnsDb_Mmusculus_v79.rds'

## 
# 对 gex 文库进行质控
mkdir -p ${outdir}/fastp/${gsample}
fastp \
    -i ${outdir}/Rawdata/${gfq1} \
    -I ${outdir}/Rawdata/${gfq2} \
    -o ${outdir}/fastp/${gsample}/${gfq1} \
    -O ${outdir}/fastp/${gsample}/${gfq2} \
    --reads_to_process 0 --cut_front --cut_front_window_size 4 --cut_front_mean_quality 10 --cut_tail --cut_tail_window_size 1 --cut_tail_mean_quality 3 \
    -j ${outdir}/fastp/${gsample}/${gsample}_fastp.json \
    -h ${outdir}/fastp/${gsample}/${gsample}_fastp.html \
    --thread ${core}

# 对 atac 文库进行质控
mkdir -p ${outdir}/fastp/${asample}
fastp \
    -i ${outdir}/Rawdata/${afq1} \
    -I ${outdir}/Rawdata/${afq2} \
    -o ${outdir}/fastp/${asample}/${afq1} \
    -O ${outdir}/fastp/${asample}/${afq2} \
    --reads_to_process 0 --cut_front --cut_front_window_size 4 --cut_front_mean_quality 10 --cut_tail --cut_tail_window_size 1 --cut_tail_mean_quality 3 \
    -j ${outdir}/fastp/${asample}/${asample}_fastp.json \
    -h ${outdir}/fastp/${asample}/${asample}_fastp.html \
    --thread ${core}

seeksoultools rna run \
    --fq1 ${outdir}/fastp/${gsample}/${gfq1} \
    --fq2 ${outdir}/fastp/${gsample}/${gfq2} \
    --samplename ${gsample} \
    --outdir ${outdir} \
    --genomeDir ${genomeDir} \
    --gtf ${gtf} \
    --chemistry DD-Q \
    --include-introns \
    --core ${core}

mkdir -p ${outdir}/${asample}
python /code/barcode.py \
	--fq1 ${outdir}/fastp/${asample}/${afq1} \
	--fq2 ${outdir}/fastp/${asample}/${afq2} \
	--samplename ${asample} \
	--outdir ${outdir}/${asample} \
	--barcode /file/P3CB.barcode.txt.gz \
	--chemistry DD-AG \
	--core ${core}

mkdir -p ${outdir}/${asample}/cutdata
python /code/cut_reads.py \
    --afq1 ${outdir}/${asample}/step1/${asample}_1.fq.gz \
    --afq2 ${outdir}/${asample}/step1/${asample}_2.fq.gz \
    --step1json ${outdir}/${asample}/${asample}_summary.json \
    --outdir ${outdir}/${asample}/cutdata \
    --samplename ${asample}

mkdir -p ${outdir}/${asample}/step2/bwa_pe
cd ${outdir}/${asample}/step2/bwa_pe
bwa mem \
    -t ${core} -M -R "@RG\tID:$asample\tLB:WGS\tPL:Illumina\tPU:$asample\tSM:$asample" ${genomefa} \
    ${outdir}/${asample}/cutdata/${asample}_cutR1.fastq.gz \
    ${outdir}/${asample}/cutdata/${asample}_cutR2.fastq.gz | samtools sort -@ ${core} -o ${asample}_mem_pe_Sort.bam

mkdir -p ${outdir}/${asample}/step3
python /code/snaprun.py \
    --bam ${outdir}/${asample}/step2/bwa_pe/${asample}_mem_pe_Sort.bam \
    --atacjson ${outdir}/${asample}/${asample}_summary.json \
    --gexjson ${outdir}/${gsample}/${gsample}_summary.json \
    --outdir ${outdir}/${asample}/step3 \
    --samplename ${asample} \
    --countxls ${outdir}/${gsample}/step3/counts.xls \
    --detailxls ${outdir}/${gsample}/step3/detail.xls \
    --species ${species} \
    --refpath ${refpath} \
    --bedtoolspath ${bedtoolspath} \
    --core ${core} \
    --qvalue 0.05 \
    --shift 0 \
    --extsize 400 \
    --min_len 400

cd ${outdir}/${asample}/step3 &&\
gunzip ${asample}_fragments.tsv.gz &&\
bedtools sort -i ${asample}_fragments.tsv > ${asample}_fragments_sort.tsv &&\
bgzip -c ${asample}_fragments_sort.tsv > ${asample}_fragments.tsv.gz &&\
tabix -p bed ${asample}_fragments.tsv.gz &&\
rm ${asample}_fragments.tsv ${asample}_fragments_sort.tsv

mkdir -p ${outdir}/${asample}/step4
Rscript /code/count_link.R \
    --gex_matrix_dir ${outdir}/${gsample}/step3/raw_feature_bc_matrix \
    --atac_matrix_dir ${outdir}/${asample}/step3/filter_peaks_bc_matrix \
    --fragpath ${outdir}/${asample}/step3/${asample}_fragments.tsv.gz \
    --outdir ${outdir}/${asample}/step4 \
    --species ${species} \
    --anno_rds ${annords} \
    --core ${core} \
    --memory ${memory}

python /file/report_arc.py \
    --atacjson ${outdir}/${asample}/${asample}_summary.json \
    --gexjson ${outdir}/${gsample}/${gsample}_summary.json \
    --outdir ${outdir} \
    --samplename ${asample}

SeekOne DD ATAC+GEX Pipeline 用户指南

一、获取数据¶

二、参考文件下载¶

三、环境准备¶

四、参数设置¶

五、数据质控¶

1. 使用 fastp 对 GEX 和 ATAC 文库进行质控，去除低质量的 reads，得到文库质量报告¶

2. 使用 SeekSoulTools 分析转录组文库数据¶

3. 分析 ATAC 文库数据¶

step1：数据预处理¶

① 提取 barcode 和 umi 信息，去除接头序列¶

② 对 step1 处理后的 reads 进行剪切，使剪切后的 R1,R2 仅为插入片段序列¶

step2：将剪切后的 reads 使用 bwa mem 比对并使用 samtools 排序¶

step3：使用 snapatac2 分析 bam，输出统计信息和文件。¶

对 step3 生成的 asample_fragments.tsv.gz 文件进行排序，并建立索引¶

step4：使用 Signac 和 Seurat 对 gex 和 atac 的矩阵文件进行下游分析，并计算 links 信息¶

4. 汇总 gex 和 atac 分析结果，输出质控报告¶

SeekOne DD ATAC+GEX Pipeline 用户指南

一、获取数据¶

二、参考文件下载¶

三、环境准备¶

四、参数设置¶

五、数据质控¶

1. 使用 fastp 对 GEX 和 ATAC 文库进行质控，去除低质量的 reads，得到文库质量报告¶

2. 使用 SeekSoulTools 分析 转录组文库数据¶

3. 分析 ATAC 文库数据¶

step1：数据预处理¶

① 提取 barcode 和 umi 信息，去除接头序列¶

② 对 step1 处理后的 reads 进行剪切，使剪切后的 R1,R2 仅为插入片段序列¶

step2：将剪切后的 reads 使用 bwa mem 比对并使用 samtools 排序¶

step3：使用 snapatac2 分析 bam，输出统计信息和文件。¶

对 step3 生成的 asample_fragments.tsv.gz 文件进行排序，并建立索引¶

step4：使用 Signac 和 Seurat 对 gex 和 atac 的矩阵文件进行下游分析，并计算 links 信息¶

4. 汇总 gex 和 atac 分析结果，输出质控报告¶

2. 使用 SeekSoulTools 分析转录组文库数据¶