{{nav.loginGreeting}}
  • データを探す
      • オカレンス
      • GBIF API
      • 種情報
      • データセット
      • Occurrence snapshots
      • Hosted portals
      • 傾向分析
  • データを共有・活用する
    • データを共有する

      • GBIF.orgでデータを出版(公開)する
      • データセットクラス
      • データのホスティング
      • 標準データ形式
      • 出版者になる
      • 要求されるデータの品質
      • データペーパー
    • データを活用する

      • データ利用例紹介
      • 引用ガイドライン
      • GBIFが引用された文献
      • Citation widget
  • ツール
    • 出版者

      • IPT
      • データ検証ツール
      • GeoPick
      • New data model ⭐️
      • 自然史コレクション(GRSciColl)
      • 掲載したいデータセットを提案する
    • ユーザー

      • Hosted portals
      • Scientific collections
      • データ処理
      • Derived datasets
      • rgbif
      • pygbif
      • MAXENT
      • ツールカタログ
    • GBIFラボ

      • 種名マッチングツール
      • 学名解析ツール
      • 配列ID
      • 関連した観察傾向
      • 開発者ブログ
  • コミュニティ
    • ネットワーク

      • GBIFネットワーク
      • GBIFノード
      • 出版者
      • GBIFネットワーク問い合わせ先
      • コミュニティフォーラム
      • 生物多様性の知識のための要請
    • ボランティア

      • メンタリング
      • アンバサダー
      • トランスレーター
      • 市民科学
    • アクティビティ

      • 能力強化
      • プログラム&プロジェクト
      • トレーニングとeラーニング
      • Data Use Club
      • 生物アトラス
  • GBIFについて
    • GBIFの運営

      • GBIFとは
      • メンバーになるには
      • ガバナンス
      • GBIF戦略計画
      • Work Programme
      • GBIFへの出資者
      • パートナーシップ
      • Release notes
      • 問い合わせ先
    • ニュース&アウトリーチ

      • ニュース
      • ニュースレター
      • イベント
      • 各種の賞
      • サイエンスレビュー
      • Data use
  • User profile

INSDC Environment Sample Sequences

Citation

European Bioinformatics Institute (EMBL-EBI), GBIF Helpdesk (2024). INSDC Environment Sample Sequences. Version 1.97. European Nucleotide Archive (EMBL-EBI). Occurrence dataset https://doi.org/10.15468/mcmd5g accessed via GBIF.org on 2024-08-12.

Description

This dataset contains INSDC sequences associated with environmental sample identifiers. The dataset is prepared periodically using the public ENA API (https://www.ebi.ac.uk/ena/portal/api/) by querying data with the search parameters: environmental_sample=True & host=""

EMBL-EBI also publishes other records in separate datasets (https://www.gbif.org/publisher/ada9d123-ddb4-467d-8891-806ea8d94230).

The data was then processed as follows:

1. Human sequences were excluded.

2. For non-CONTIG records, the sample accession number (when available) along with the scientific name were used to identify sequence records corresponding to the same individuals (or group of organism of the same species in the same sample). Only one record was kept for each scientific name/sample accession number.

3. Contigs and whole genome shotgun (WGS) records were added individually.

4. The records that were missing some information were excluded. Only records associated with a specimen voucher or records containing both a location AND a date were kept.

5. The records associated with the same vouchers are aggregated together.

6. A lot of records left corresponded to individual sequences or reads corresponding to the same organisms. In practise, these were "duplicate" occurrence records that weren't filtered out in STEP 2 because the sample accession sample was missing. To identify those potential duplicates, we grouped all the remaining records by scientific_name, collection_date, location, country, identified_by, collected_by and sample_accession (when available). Then we excluded the groups that contained more than 50 records. The rationale behind the choice of threshold is explained here: https://github.com/gbif/embl-adapter/issues/10#issuecomment-855757978

7. To improve the matching of the EBI scientific name to the GBIF backbone taxonomy, we incorporated the ENA taxonomic information. The kingdom, Phylum, Class, Order, Family, and genus were obtained from the ENA taxonomy checklist available here: http://ftp.ebi.ac.uk/pub/databases/ena/taxonomy/sdwca.zip

More information available here: https://github.com/gbif/embl-adapter#readme

You can find the mapping used to format the EMBL data to Darwin Core Archive here: https://github.com/gbif/embl-adapter/blob/master/DATAMAPPING.md

Taxonomic Coverages

Geographic Coverages

Worldwide

Bibliographic Citations

Contacts

European Bioinformatics Institute (EMBL-EBI)
originator
email: datasubs@ebi.ac.uk
homepage: http://www.ebi.ac.uk
GBIF Helpdesk
metadata author
email: helpdesk@gbif.org
European Bioinformatics Institute (EMBL-EBI)
administrative point of contact
email: datasubs@ebi.ac.uk
homepage: http://www.ebi.ac.uk
GBIFとは API よくある質問 ニュースレター プライバシーポリシー 利用規約 引用 行動規範 謝辞
コンタクト GBIF Secretariat Universitetsparken 15 DK-2100 Copenhagen Ø Denmark
GBIF is a Global Core Biodata Resource