ERAST przeszukuje miliard sekwencji biologicznych w milisekundy

Aktualności

Zespół naukowców opublikował w Nature Biotechnology nowe narzędzie bioinformatyczne ERAST (Efficient Retrieval-Augmented Search Tool), które wykorzystuje duże modele językowe (large language models, LLM) do wyszukiwania homologii w bazach danych zawierających około miliarda sekwencji biologicznych. Narzędzie integruje trzyetapowy proces optymalizacji — filtrowanie wstępne, przeszukiwanie bazy wektorowej i punktowanie wyników — dzięki czemu obsługuje zarówno sekwencje nukleotydowe, jak i aminokwasowe. W testach porównawczych ERAST okazał się około 50-krotnie szybszy od Foldseek i aż 50 000-krotnie szybszy od TM-align, zachowując przy tym wysoką precyzję detekcji. Baza danych zintegrowana z ERAST jest publicznie dostępna, co czyni narzędzie użytecznym zarówno w genomice porównawczej, jak i w odkrywaniu nowych leków czy analizie metagenomicznej.

Źródła:
1. Jiang Y., He B., Wu Z. i in., „Scalable homology detection with ERAST”, Nature Biotechnology, 2026. DOI: 10.1038/s41587-026-03051-1

Tagged