snakemakerna-seq

snakemake - Missing input files for rule salmon_quant: error


I am trying to process bulk RNA-seq data using salmon through snakemake in the conda/mamba environment.

I am receiving the following error when running snakemake:

(snakemake) pratik@pratik:~/Desktop/ra-fls$ snakemake --cores
Building DAG of jobs...
MissingInputException in line 75 of /home/pratik/Desktop/ra-fls/Snakefile:
Missing input files for rule salmon_quant:
fastq/SRR3350597_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz

This is my Snakefile:

DATASETS = ["SRR3350543_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350544_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350545_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350546_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350547_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350548_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350549_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350550_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq",
            "SRR3350551_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq",
            "SRR3350552_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq",
            "SRR3350553_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq",
            "SRR3350554_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq",
            "SRR3350555_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350556_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350557_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350558_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350559_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350561_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350562_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350563_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq",
            "SRR3350564_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350565_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350566_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350567_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350568_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350569_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350570_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350571_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq",
            "SRR3350572_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350573_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350574_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350575_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350576_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350577_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350578_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350579_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq",
            "SRR3350580_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350581_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350582_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350583_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350584_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350585_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350586_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350587_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq",
            "SRR3350588_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350589_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350590_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350591_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350592_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350593_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350595_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350596_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq",
            "SRR3350597_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350598_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350599_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350600_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350601_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350602_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350603_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350604_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq",
            "SRR3350605_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350606_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350607_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350608_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350609_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350610_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350611_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq",
            "SRR3350612_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq"]

SALMON = "/home/pratik/anaconda3/envs/salmon/bin/salmon"

rule all:
  input: expand("quants/{dataset}/quant.sf", dataset=DATASETS)

rule salmon_quant:
    input:
        r1 = "fastq/{sample}_1.fastq.gz",
        r2 = "fastq/{sample}_2.fastq.gz",
        index = "gencode.v38_salmon_1.5.0"
    output:
        "quants/{sample}/quant.sf"
    params:
        dir = "quants/{sample}"
    shell:
        "{SALMON} quant -i {input.index} -l A -p28 --validateMappings \
         --gcBias -o {params.dir} \
         -1 {input.r1} -2 {input.r2}"

I have tried changing the file paths for the r1 and r2 inputs. However I think I am missing something or have too much.

Here is my ls where the fastq folder contains all of the fastq.gz files, transcriptome is in gencode.v38_salmon.1.5.0 folder and quants folder is empty:

(snakemake) pratik@pratik:~/Desktop/ra-fls$ ls
fastq                     gencode.v38.transcripts.fa.gz  Snakefile
gencode.v38_salmon_1.5.0  quants                         sra_explorer_fastq_aspera_download.sh

Here is the fastq folder:

(snakemake) pratik@pratik:~/Desktop/ra-fls/fastq$ ls
SRR3350543_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350543_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350544_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350544_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350545_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350545_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350546_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350546_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350547_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350547_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350548_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350548_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350549_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350549_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350550_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350550_GSM2112323_RA_knee_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350551_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350551_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350552_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350552_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350553_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350553_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350554_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350554_GSM2112324_RA_knee_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350555_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350555_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350556_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350556_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350557_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350557_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350558_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350558_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350559_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350559_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350561_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350561_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350562_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350562_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350563_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350563_GSM2112325_RA_knee_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350564_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350564_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350565_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350565_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350566_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350566_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350567_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350567_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350568_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350568_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350569_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350569_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350570_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350570_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350571_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350571_GSM2112326_RA_knee_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350572_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350572_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350573_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350573_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350574_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350574_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350575_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350575_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350576_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350576_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350577_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350577_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350578_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350578_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350579_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350579_GSM2112327_RA_knee_5_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350580_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350580_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350581_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350581_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350582_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350582_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350583_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350583_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350584_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350584_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350585_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350585_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350586_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350586_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350587_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350587_GSM2112328_RA_hip_1_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350588_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350588_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350589_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350589_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350590_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350590_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350591_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350591_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350592_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350592_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350593_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350593_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350595_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350595_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350596_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350596_GSM2112329_RA_hip_2_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350597_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350598_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350598_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350599_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350599_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350600_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350600_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350601_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350601_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350602_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350602_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350603_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350603_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350604_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350604_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350605_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350605_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350606_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350606_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350607_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350607_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350608_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350608_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350609_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350609_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350610_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350610_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350611_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350611_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz
SRR3350612_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_1.fastq.gz
SRR3350612_GSM2112331_RA_hip_4_Homo_sapiens_RNA-Seq_2.fastq.gz

Solution

  • I think the Snakefile is ok, SRR3350597_GSM2112330_RA_hip_3_Homo_sapiens_RNA-Seq_1.fastq.gz is simply missing. See the ls output of yours, that file is not in it.