Edit text file using sed or awk -
i have sample text file shown below:
>chr1 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr10 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr11 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr12 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >aaex03020170.1 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa >aaex03022270.1 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa >jh373398.1dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa >jh373568.1dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa
the first 4 starts chr1
, chr10
,chr11
, chr12
, rest starts common prefix aaex
, jh
.
i delete data lines starting aaex
, jh
i.e. output should like:
>chr1 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr10 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr11 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr12 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
the original file has many such lines starting 'aaex' , 'jh' , convert shown above. help?
this should trick:
$ awk '/>[aj]/{if(!f++)print ">chrx";next}nf' file >chr1 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr10 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr11 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chr12 dna:chromosome chromosome:canfam3.1:1:1:122678785:1 ref nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn >chrx nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnntatgtgagaagatagctgaa