{{nav.loginGreeting}}
  • احصل على البيانات
      • التكرارات
      • واجهة برمجة تطبيقات "جبيف"
      • الأنواع
      • مجاميع البيانات
      • Occurrence snapshots
      • Hosted portals
      • الاتجاهات
  • الدليل في:
    • مشاركة البيانات

      • البدء السريع
      • فئات البيانات
      • استضافة البيانات
      • المعايير المعتمدة
      • لتصبح ناشراً
      • نوعية البيانات
      • المقالات العلمية للبيانات
    • استخدام البيانات

      • استخدام بيانات مميزة
      • إرشادات الاقتباس
      • اقتباسات من "جبيف"
      • أداة الاقتباس من "جبيف"
  • الأدوات
    • الناشرون

      • أداة النشر المتكاملة
      • مدقق صحة البيانات
      • GeoPick
      • New data model ⭐️
      • المجموعات العلمية
      • اقتراح مجموعة بيانات
    • المستخدمون

      • Hosted portals
      • Scientific collections
      • معالجة البيانات
      • Derived datasets
      • أحصائيات "جيبف"
      • pygbif
      • نمذجة التوزع والغنى النوعي
      • فهرس أدلة الأدوات
    • مختبرات "جبيف"

      • مطابقة الأنواع
      • محلل المسميات
      • المعرف التصنيفي
      • التغيرات النسبية في المراقبة
      • مدونة بيانات "جبيف"
  • المجتمع
    • الشبكة

      • المشاركون
      • نقاط التنسيق
      • الناشرون
      • نقاط الاتصال ضمن الشبكة
      • المنتدى
      • تحالف لمعارف التنوع الحيوي
    • المتطوعون

      • الموجهون
      • السفراء
      • المترجمون
      • عموم الناشطين العلميين
    • الأنشطة

      • تعزيز القدرات
      • برامج و مشاريع
      • التدريب والتعلم عن بعد
      • Data Use Club
      • الأطالس الحية
  • حول
    • ضمن "جبيف"

      • تعريف "جبيف"
      • كيف تصبح عضواً
      • الحوكمة
      • خطة التنفيذ
      • Work Programme
      • الممولون
      • الشراكات
      • Release notes
      • عناوين الاتصال
    • الأخبار والتواصل

      • الأخبار
      • الرسائل الإخبارية والقوائم
      • الأحداث
      • Awards
      • المراجعة العلمية
      • Data use
  • User profile

INSDC Host Organism Sequences

Citation

European Bioinformatics Institute (EMBL-EBI), GBIF Helpdesk (2024). INSDC Host Organism Sequences. Version 1.98. European Nucleotide Archive (EMBL-EBI). Occurrence dataset https://doi.org/10.15468/e97kmy accessed via GBIF.org on 2024-08-12.

Description

This dataset contains INSDC sequences associated with host organisms. The dataset is prepared periodically using the public ENA API (https://www.ebi.ac.uk/ena/portal/api/) using the methods described below.

EMBL-EBI also publishes other records in separate datasets (https://www.gbif.org/publisher/ada9d123-ddb4-467d-8891-806ea8d94230).

The data was then processed as follows:

1. Human sequences were excluded.

2. For non-CONTIG records, the sample accession number (when available) along with the scientific name were used to identify sequence records corresponding to the same individuals (or group of organism of the same species in the same sample). Only one record was kept for each scientific name/sample accession number.

3. Contigs and whole genome shotgun (WGS) records were added individually.

4. The records that were missing some information were excluded. Only records associated with a specimen voucher or records containing both a location AND a date were kept.

5. The records associated with the same vouchers are aggregated together.

6. A lot of records left corresponded to individual sequences or reads corresponding to the same organisms. In practise, these were "duplicate" occurrence records that weren't filtered out in STEP 2 because the sample accession sample was missing. To identify those potential duplicates, we grouped all the remaining records by scientific_name, collection_date, location, country, identified_by, collected_by and sample_accession (when available). Then we excluded the groups that contained more than 50 records. The rationale behind the choice of threshold is explained here: https://github.com/gbif/embl-adapter/issues/10#issuecomment-855757978

7. To improve the matching of the EBI scientific name to the GBIF backbone taxonomy, we incorporated the ENA taxonomic information. The kingdom, Phylum, Class, Order, Family, and genus were obtained from the ENA taxonomy checklist available here: http://ftp.ebi.ac.uk/pub/databases/ena/taxonomy/sdwca.zip

More information available here: https://github.com/gbif/embl-adapter#readme

You can find the mapping used to format the EMBL data to Darwin Core Archive here: https://github.com/gbif/embl-adapter/blob/master/DATAMAPPING.md

Taxonomic Coverages

Geographic Coverages

Worldwide

Bibliographic Citations

Contacts

European Bioinformatics Institute (EMBL-EBI)
originator
email: datasubs@ebi.ac.uk
homepage: http://www.ebi.ac.uk
GBIF Helpdesk
metadata author
email: helpdesk@gbif.org
European Bioinformatics Institute (EMBL-EBI)
administrative point of contact
email: datasubs@ebi.ac.uk
homepage: http://www.ebi.ac.uk
ما هو المرفق العالمي لمعلومات التنوع الحيوي "جبيف" واجهة برمجة التطبيقات (API) اسئلة متكررة رسالة اخبارية خصوصية شروط و اتفاقات اقتباس قواعد السلوك شكر وتقدير
اتصال GBIF Secretariat Universitetsparken 15 DK-2100 Copenhagen Ø Denmark
GBIF is a Global Core Biodata Resource