如何高效下载基因组文件或原始reads数据
如何简单高效下载ncbi中refseq、genbank数据库的基因组或EBI数据库中的原始reads数据
(一)利用ncbi-genome-download批量下载基因组文件12#安装conda install bioconda::ncbi-genome-download
主要参数groups参数定于目标物种所在的大类,包括’all’, ‘archaea’, ‘bacteria’, ‘fungi’, ‘invertebrate’, ‘metagenomes’, ‘plant’, ‘protozoa’, ‘vertebrate_mammalian’, ‘vertebrate_other’, ‘viral’。只将所属类群的名字放在命令行中-s或–section 选择数据库refseq或genbank,一般不添加该参数,默认为refseq数据库-t或–taxid 添加所下载物种在ncbi的id,可以直接添加,也可以放入一个文件中批量下载多个物种-F或–formats 定义所需物种的数据的类型,包括’genbank’, ‘fasta’, ‘rm’, ‘features’, ‘gff’, ‘p ...
基因组注释——适合初学者的流程分解版
主题:基因组注释相关参考:
基因组注释(一):重复序列注释 | 生信技工 (yanzhongsino.github.io)
使用RepeatModeler从头预测基因组重复序列 | BioChen 博客
【基因组注释】RepeatMasker和RepeatModeler安装、配置与运行避坑 - 简书 (jianshu.com)
基因组重复序列注释repeatmask&repeatmodeler - 知乎 (zhihu.com)
非模式生物重复序列注释 RepeatModeler2+RepeatMasker4 - 简书 (jianshu.com)
基因组注释(2)——散在重复序列注释 - 我的小破站 (phantom-aria.github.io)
使用AUGSTUS+Geneid+GeneMark+GeMoMa+GenomeThreader+Exonerate进行基因结构预测 - 知乎 (zhihu.com)
基因组结构注释软件列表 - 简书 (jianshu.com)
基因组注释(1)——串联重复序列注释 - 我的小破站 (phantom-aria.github.io)
1 ...
QuIBL方法检验基因渐渗和不完全谱系分选
QuIBL是2019年science蝴蝶辐射演化分析中检测渐渗的新方法,其用法为python脚本QuIBL.py的使用
1、安装在github下载软件包:https://github.com/miriammiyagi/QuIBL
123wget https://github.com/miriammiyagi/QuIBL/archive/refs/heads/master.zipunzip master.zip
该脚本依赖python2.7,且依赖以下包joblib, ete3, itertools, sys, numpy, math, ConfigParser, csv, and multiprocessing
#创建python2的环境
12conda create -n python2.7 python=2.7conda activate python2.7
#通过运行示例文件来检查不存在的依赖包
1python QuIBL.py ./Small_Test_Example/sampleInputFile.txt
#通过多次运行实例文件的报错,发现te3和joblib是存在问题 ...
溯祖树与基因树之间冲突的可视化
溯祖树与基因树之间冲突的可视化主要用到PhyParts软件以及phypartspiecharts.py脚本
参考网站:
blackrim / phyparts / README.md — Bitbucket
phyloscripts/phypartspiecharts at master · mossmatters/phyloscripts · GitHub
Abronia HybSeq Phylogeny - HackMD
以上的英文页面讲解非常清晰,在此抛砖引玉,方便大家检索。
一、phyparts的安装(首先保证运行环境有maven,否则无法安装)1234567891011git clone https://bitbucket.org/blackrim/phyparts.gitsh mvn_cmdline.sh(安装失败)##缺少依赖,安装mavenconda install conda-forge::mavensh mvn_cmdline.sh(安装成功)java -jar target/phyparts-0.0.1-SNAPSHOT-j ...
系统发育网络推断软件PhyloNetworks和Phylonet的使用及遇到的error
一、系统发育网络推断软件PhyloNetworks的使用流程以及解决报错该软件的详细说明请参考他的官方网站Home · PhyloNetworks.jl (crsl4.github.io),该软件的中文流程(包括简介、安装使用流程等)请参考系统发育网络推断 —— PhyloNetworks | 生信技工 (yanzhongsino.github.io),本笔记参考以上两个站点并测试无报错。
1、安装12345678wget https://julialang-s3.julialang.org/bin/linux/x64/1.7/julia-1.7.2-linux-x86_64.tar.gz #下载tar -xzf julia-1.7.2-linux-x86_64.tar.gz #解压julia-1.7.2/bin/julia -h #若无报错则安装julia成功julia-1.7.2/bin/julia #进入julia运行界面,类似于python和r的交互模式julia> using Pkg #类似于r的library和python的import来加载函数julia> ...
利用ete3批量对基因树定根并检测单系性
利用ete3的set_outgroup函数批量对基因树定根并利用check_monophyly函数检测单系性对溯祖法得到的多个基因树进行定根,将多个基因树文件cat到一个文件中,得到alltree.txt,利用以下脚本对其批量定根。12345678910111213###首先下载ete3工具包from ete3 import Treefor i in range(7121): #提前创建7122个文件,用于写入定根后的树文件,修改为基因的数量减一 f = open('./%s'%i + '.txt',"a") f.write("")n=0with open('alltree.txt','r') as f: for line in f: t = Tree(line) t.set_outgroup(t&"mcap") #设置 ...
利用cafe5进行基因家族扩张收缩分析
利用cafe5进行基因家族扩张收缩分析测试于2023年9月1日
基于orthofinder直系同源聚类的结果,可以看在树的特定节点上哪些基因家族发生了扩张与收缩
软件安装
123456#在单独的conda环境里安装并运行,避免环境冲突conda activate biosoftconda install -c bioconda cafe#测试成功安装cafe5 -h
准备文件包括1、带有分歧时间的树,由MCMCtree产生;2、直系同源基因家族的聚类情况,由orthofinder结果产生;
123456789101112131415#step 1 准备树文件,FigTree.tre来自MCMCtree结果grep "UTREE 1 =" FigTree.tre | sed -E -e "s/\[[^]]*\]//g" -e "s/[ \t]//g" -e "/^$/d" -e "s/UTREE1=//" > tree.txt#step 2 用orthofinder2 ...
ete3
如何利用ete3包从系统发育树中提取子树ete3:用于构建、比较、注释、操作和可视化系统发育树的Python包。
12345678conda install ete3 #conda安装python #在操作文件目录下进入python命令行交互界面import ete3 #导入ete3包t = ete3.Tree("tree.txt") #将原来的进化树定义为tsubtree_taxa = ["Orbicella_annularis","Pocillipora_damicornis","Stylophora_pistillata","Hydra_vulgaris","Acropora_digitifera","Acropora_millepora","Acropora_tenuis","Porites_lutea","Renilla_muelleri","Discosoma ...
learn_perl
Perl是一种高效处理文本文件的脚本语言,下面记录了一些常用的基因序列处理的perl函数或工具
数据类型1、scalar大小写转换工具:
1234uc $seq_of_BRAC2; #转大写lc $seq_of_BRAC2; #转小写$seq_of_BRAC2 =~ tr/atgc/ATGC/; #转大写$seq_of_BRAC2 =~ tr/ATGC/atgc/; #转小写
利用tr工具统计4种碱基的个数
123my $count = $seperate_dna =~ tr/atgc/atgc/; #统计$seperate_dna中小写atgc的数目my $count = $seperate_dna =~ tr/ATGC/ATGC/; #统计$seperate_dna中大写ATGC的数目my $count = $seperate_dna =~ tr/A/A/; #统计$seperate_dna中A的数目
取反向互补序列
12my $reversed_zika_DNA = reverse($zika_DNA);$reversed_zika_DNA =~ tr/ATC ...
提取两文件的不同行
文件的情景:prank.sh.completed是prank.sh的子集:
123cat prank.sh prank.sh.completed | sort | uniq -d >temp.txtcat prank.sh temp.txt | sort | uniq -u > different.txt
(以下内容搭个便车)
前两天,利用cafe4.2的版本分析,根据本地以及网上教程,
在网上下载了各种现成的脚本,真方便。
1cafe 01cafe.sh
上述命令运行报错(忘了记录)。原因:缺少树的祖先位置的λ分类。添加即可。
在提取扩张收缩的基因家族ID时,cafetutorial_report_analysis.py脚本运行报错(忘了记录)。原因:缺少cafecore moduel。解决方法:github上搜索并下载cafecore.py,添加到python脚本目录下。
运行时又有了以下报错
123File "./cafecore.py", line 8<!DOCTYPE html>^SyntaxError: invalid ...