TianzhenWu' Blog

发表于2024-08-11|数据下载

如何简单高效下载ncbi中refseq、genbank数据库的基因组或EBI数据库中的原始reads数据（一）利用ncbi-genome-download批量下载基因组文件12#安装conda install bioconda::ncbi-genome-download 主要参数groups参数定于目标物种所在的大类，包括’all’, ‘archaea’, ‘bacteria’, ‘fungi’, ‘invertebrate’, ‘metagenomes’, ‘plant’, ‘protozoa’, ‘vertebrate_mammalian’, ‘vertebrate_other’, ‘viral’。只将所属类群的名字放在命令行中-s或–section 选择数据库refseq或genbank，一般不添加该参数，默认为refseq数据库-t或–taxid 添加所下载物种在ncbi的id，可以直接添加，也可以放入一个文件中批量下载多个物种-F或–formats 定义所需物种的数据的类型，包括’genbank’, ‘fasta’, ‘rm’, ‘features’, ‘gff’, ‘p ...

基因组注释——适合初学者的流程分解版

发表于2024-07-17

主题：基因组注释相关参考：基因组注释（一）：重复序列注释 | 生信技工 (yanzhongsino.github.io) 使用RepeatModeler从头预测基因组重复序列 | BioChen 博客【基因组注释】RepeatMasker和RepeatModeler安装、配置与运行避坑 - 简书 (jianshu.com) 基因组重复序列注释repeatmask&repeatmodeler - 知乎 (zhihu.com) 非模式生物重复序列注释 RepeatModeler2+RepeatMasker4 - 简书 (jianshu.com) 基因组注释（2）——散在重复序列注释 - 我的小破站 (phantom-aria.github.io) 使用AUGSTUS+Geneid+GeneMark+GeMoMa+GenomeThreader+Exonerate进行基因结构预测 - 知乎 (zhihu.com) 基因组结构注释软件列表 - 简书 (jianshu.com) 基因组注释（1）——串联重复序列注释 - 我的小破站 (phantom-aria.github.io) 1 ...

QuIBL方法检验基因渐渗和不完全谱系分选

发表于2024-04-09|网状进化

QuIBL是2019年science蝴蝶辐射演化分析中检测渐渗的新方法，其用法为python脚本QuIBL.py的使用 1、安装在github下载软件包：https://github.com/miriammiyagi/QuIBL 123wget https://github.com/miriammiyagi/QuIBL/archive/refs/heads/master.zipunzip master.zip 该脚本依赖python2.7，且依赖以下包joblib, ete3, itertools, sys, numpy, math, ConfigParser, csv, and multiprocessing #创建python2的环境 12conda create -n python2.7 python=2.7conda activate python2.7 #通过运行示例文件来检查不存在的依赖包 1python QuIBL.py ./Small_Test_Example/sampleInputFile.txt #通过多次运行实例文件的报错，发现te3和joblib是存在问题 ...

溯祖树与基因树之间冲突的可视化

发表于2024-01-20|网状进化

溯祖树与基因树之间冲突的可视化主要用到PhyParts软件以及phypartspiecharts.py脚本参考网站： blackrim / phyparts / README.md — Bitbucket phyloscripts/phypartspiecharts at master · mossmatters/phyloscripts · GitHub Abronia HybSeq Phylogeny - HackMD 以上的英文页面讲解非常清晰，在此抛砖引玉，方便大家检索。一、phyparts的安装（首先保证运行环境有maven，否则无法安装）1234567891011git clone https://bitbucket.org/blackrim/phyparts.gitsh mvn_cmdline.sh（安装失败）##缺少依赖，安装mavenconda install conda-forge::mavensh mvn_cmdline.sh（安装成功）java -jar target/phyparts-0.0.1-SNAPSHOT-j ...

系统发育网络推断软件PhyloNetworks和Phylonet的使用及遇到的error

发表于2023-10-07|网状进化

一、系统发育网络推断软件PhyloNetworks的使用流程以及解决报错该软件的详细说明请参考他的官方网站Home · PhyloNetworks.jl (crsl4.github.io)，该软件的中文流程（包括简介、安装使用流程等）请参考系统发育网络推断 —— PhyloNetworks | 生信技工 (yanzhongsino.github.io)，本笔记参考以上两个站点并测试无报错。 1、安装12345678wget https://julialang-s3.julialang.org/bin/linux/x64/1.7/julia-1.7.2-linux-x86_64.tar.gz #下载tar -xzf julia-1.7.2-linux-x86_64.tar.gz #解压julia-1.7.2/bin/julia -h #若无报错则安装julia成功julia-1.7.2/bin/julia #进入julia运行界面，类似于python和r的交互模式julia> using Pkg #类似于r的library和python的import来加载函数julia> ...

利用ete3批量对基因树定根并检测单系性

发表于2023-10-05|批量处理方法

利用ete3的set_outgroup函数批量对基因树定根并利用check_monophyly函数检测单系性对溯祖法得到的多个基因树进行定根，将多个基因树文件cat到一个文件中，得到alltree.txt，利用以下脚本对其批量定根。12345678910111213###首先下载ete3工具包from ete3 import Treefor i in range(7121): #提前创建7122个文件，用于写入定根后的树文件，修改为基因的数量减一 f = open('./%s'%i + '.txt',"a") f.write("")n=0with open('alltree.txt','r') as f: for line in f: t = Tree(line) t.set_outgroup(t&"mcap") #设置 ...

利用cafe5进行基因家族扩张收缩分析

发表于2023-09-02|分析笔记

利用cafe5进行基因家族扩张收缩分析测试于2023年9月1日基于orthofinder直系同源聚类的结果，可以看在树的特定节点上哪些基因家族发生了扩张与收缩软件安装 123456#在单独的conda环境里安装并运行，避免环境冲突conda activate biosoftconda install -c bioconda cafe#测试成功安装cafe5 -h 准备文件包括1、带有分歧时间的树，由MCMCtree产生；2、直系同源基因家族的聚类情况，由orthofinder结果产生； 123456789101112131415#step 1 准备树文件，FigTree.tre来自MCMCtree结果grep "UTREE 1 =" FigTree.tre | sed -E -e "s/\[[^]]*\]//g" -e "s/[ \t]//g" -e "/^$/d" -e "s/UTREE1=//" > tree.txt#step 2 用orthofinder2 ...

ete3

发表于2023-04-04

如何利用ete3包从系统发育树中提取子树ete3：用于构建、比较、注释、操作和可视化系统发育树的Python包。 12345678conda install ete3 #conda安装python #在操作文件目录下进入python命令行交互界面import ete3 #导入ete3包t = ete3.Tree("tree.txt") #将原来的进化树定义为tsubtree_taxa = ["Orbicella_annularis","Pocillipora_damicornis","Stylophora_pistillata","Hydra_vulgaris","Acropora_digitifera","Acropora_millepora","Acropora_tenuis","Porites_lutea","Renilla_muelleri","Discosoma ...

learn_perl

发表于2022-12-17

Perl是一种高效处理文本文件的脚本语言，下面记录了一些常用的基因序列处理的perl函数或工具数据类型1、scalar大小写转换工具： 1234uc $seq_of_BRAC2; #转大写lc $seq_of_BRAC2; #转小写$seq_of_BRAC2 =~ tr/atgc/ATGC/; #转大写$seq_of_BRAC2 =~ tr/ATGC/atgc/; #转小写利用tr工具统计4种碱基的个数 123my $count = $seperate_dna =~ tr/atgc/atgc/; #统计$seperate_dna中小写atgc的数目my $count = $seperate_dna =~ tr/ATGC/ATGC/; #统计$seperate_dna中大写ATGC的数目my $count = $seperate_dna =~ tr/A/A/; #统计$seperate_dna中A的数目取反向互补序列 12my $reversed_zika_DNA = reverse($zika_DNA);$reversed_zika_DNA =~ tr/ATC ...

提取两文件的不同行

发表于2022-09-24

文件的情景：prank.sh.completed是prank.sh的子集： 123cat prank.sh prank.sh.completed | sort | uniq -d >temp.txtcat prank.sh temp.txt | sort | uniq -u > different.txt （以下内容搭个便车）前两天，利用cafe4.2的版本分析，根据本地以及网上教程，在网上下载了各种现成的脚本，真方便。 1cafe 01cafe.sh 上述命令运行报错（忘了记录）。原因：缺少树的祖先位置的λ分类。添加即可。在提取扩张收缩的基因家族ID时，cafetutorial_report_analysis.py脚本运行报错（忘了记录）。原因：缺少cafecore moduel。解决方法：github上搜索并下载cafecore.py，添加到python脚本目录下。运行时又有了以下报错 123File "./cafecore.py", line 8<!DOCTYPE html>^SyntaxError: invalid ...