下载cBioPortal中的文章相关数据

栏目: 编程工具 · 发布时间: 5年前

内容简介:之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据最近因为有个需求希望能下载到BioPortal上某个研究的全部原始数据,尝试了不少方法,最终找到可以在Github上下载BioPortal网站上所有文章的数据,步骤略微繁琐,因此整理下cBioPortal网站做了一个R包-cgdsr使用户能通过一个基于R的API端口访问其每个癌症数据集

之前一直以为cBioPortal是用于可视化分析癌症基因组(TCGA, ICGC)等数据的网站,后来才发现其还收录了不少研究论文的原始上传数据

整合进cBioPortal的基因组数据类型包括体细胞突变,DNA copy-number alterations(CNAs),Mrna和microRNA(miRNA)表达,DNA甲基化,蛋白质富集,磷酸化蛋白富集。

cBioportal中文教程

最近因为有个需求希望能下载到BioPortal上某个研究的全部原始数据,尝试了不少方法,最终找到可以在Github上下载BioPortal网站上所有文章的数据,步骤略微繁琐,因此整理下

cBioPortal网站做了一个R包-cgdsr使用户能通过一个基于R的API端口访问其每个癌症数据集 使用R语言的cgdsr包获取TCGA数据

这个R包主要提供以下几个函数进行查询数据:

  1. 加载cgdsr包,创建一个对象来连接cbioportal server

    library(cgdsr)
    # Create CGDS object
    mycgds = CGDS("http://www.cbioportal.org/")
  2. 查询cbioportal包含的研究数据的study id

    # Get list of cancer studies at server
    study_id <- getCancerStudies(mycgds)[,c(1,2)]
  3. 看看某个study id(如nsclc_pd1_msk_2018)的所包含的数据类型有哪些(如mutate data等)以及case类型

    profiles <-  getGeneticProfiles(mycgds, "nsclc_pd1_msk_2018")
    cases <- getCaseLists(mycgds, "nsclc_pd1_msk_2018")
  4. 最后看下特定一个基因的数据情况,如下是突变数据

    res <- getProfileData(mycgds, c("CDK4","RARA"), "nsclc_pd1_msk_2018_mutations", "nsclc_pd1_msk_2018_all")

除了R的API端口外,BioPortal网站还提供了web的API端口,结果跟R的API大同小异

但是我最近在查看一篇文献的时候,发现其文章的全部数据是放在BioPortal上的,并且也在BioPortal上搜了其相关界面。但是BioPortal网站只提供了其数据的一些可视化分析结果,而我需要其文章上传的全部原始数据,而R和web的API端口也无法满足这需求

这时在网上搜寻方法的时候看到有人提到BioPortal的Github上可以下载到全部数据,因此在Github上发现果然有相关方法: https://github.com/cBioPortal/datahub

The datahub is a repository for store data only. It contains staging files which are pre-validated and can be loaded directly into the cBioPortal

但是其是用git-lfs来管理这些文件的

Git LFS 是 Github 开发的一个 Git 的扩展,用于实现 Git 对大文件的支持

所以我们需要先安装git lfs先(以ubuntu为例),依次输入命令就行;其主要步骤是先将安装Git,然后将git-lfs放到你的apt源里,然后在用apt来安装git-lfs,最后显示 Git LFS initialized. 即说明安装成功

sudo apt-get install git
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash
sudo apt-get install git-lfs
git lfs install

接着用git将datahub仓库克隆到服务器上

git clone https://github.com/cBioPortal/datahub.git
cd datahub
git lfs install --local --skip-smudge

最后可以是通过git-lfs将study id的相关数据都拉下来(注:这个stduy id是要在datahub/public里有的才行)

git lfs pull -I public/nsclc_pd1_msk_2018
cd public/nsclc_pd1_msk_2018/

最后可以看到数据都下载到 nsclc_pd1_msk_2018 文件夹中了,包含了完整的数据,非常好用,有需求的可以试试哈

anlan@ubuntu:~/datahub/public/nsclc_pd1_msk_2018$ ls -lh
总用量 2.3M
drwxrwxr-x 2 anlan anlan 4.0K  9月 22 00:00 case_lists
-rw-rw-r-- 1 anlan anlan  18K  9月 22 00:03 data_clinical_patient.txt
-rw-rw-r-- 1 anlan anlan  27K  9月 22 00:03 data_clinical_sample.txt
-rw-rw-r-- 1 anlan anlan 261K  9月 22 00:03 data_CNA.txt
-rw-rw-r-- 1 anlan anlan  24K  9月 22 00:03 data_fusions.txt
-rw-rw-r-- 1 anlan anlan 6.6K  9月 22 00:03 data_gene_matrix.txt
-rw-rw-r-- 1 anlan anlan 2.2K  9月 22 00:03 data_gene_panel_impact341.txt
-rw-rw-r-- 1 anlan anlan 2.6K  9月 22 00:03 data_gene_panel_impact410.txt
-rw-rw-r-- 1 anlan anlan 2.9K  9月 22 00:03 data_gene_panel_impact468.txt
-rw-rw-r-- 1 anlan anlan 638K  9月 22 00:03 data_mutations_extended_mskcc.txt
-rw-rw-r-- 1 anlan anlan 637K  9月 22 00:03 data_mutations_extended.txt
-rw-rw-r-- 1 anlan anlan  147  9月 22 00:00 meta_clinical_patient.txt
-rw-rw-r-- 1 anlan anlan  145  9月 22 00:00 meta_clinical_sample.txt
-rw-rw-r-- 1 anlan anlan  273  9月 22 00:00 meta_CNA.txt
-rw-rw-r-- 1 anlan anlan  229  9月 22 00:00 meta_fusions.txt
-rwxrwxr-x 1 anlan anlan  152  9月 22 00:00 meta_gene_matrix.txt
-rw-rw-r-- 1 anlan anlan  284  9月 22 00:00 meta_mutations_extended.txt
-rw-rw-r-- 1 anlan anlan  375  9月 22 00:00 meta_study.txt
-rw-rw-r-- 1 anlan anlan 618K  9月 22 00:03 nsclc_pd1_msk_2018_data_cna_hg19.seg
-rw-rw-r-- 1 anlan anlan  229  9月 22 00:00 nsclc_pd1_msk_2018_meta_cna_hg19_seg.txt

本文出自于 http://www.bioinfo-scrounger.com 转载请注明出处


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Java编程思想

Java编程思想

埃克尔 / 机械工业出版社 / 2007-5-1 / 79.00元

《Java编程思想(英文版•第4版)》内容简介:特色:1.适合初学者与专业人员的经典的面向对象的叙述方式;为更新的Java SE5/6的相关内容增加了新的示例和章节。2.测验框架显示程序输出。3.设计模式贯穿于众多示例中:适配器、桥接器、职责链、命令、装饰器、外观、工厂方法、享元、点名、数据传输对象、空对象、代理、单例、状态、策略、模板方法以及访问者。4.为数据传输引入了XML;为用户界面引入了S......一起来看看 《Java编程思想》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

URL 编码/解码
URL 编码/解码

URL 编码/解码