ERAST przeszukuje miliard sekwencji biologicznych w milisekundy

Zespół naukowców opublikował w Nature Biotechnology nowe narzędzie bioinformatyczne ERAST (Efficient Retrieval-Augmented Search Tool), które wykorzystuje duże modele językowe (large language models, LLM) do wyszukiwania homologii w bazach danych zawierających około miliarda sekwencji biologicznych. Narzędzie integruje trzyetapowy proces optymalizacji — filtrowanie wstępne, przeszukiwanie bazy wektorowej i punktowanie wyników — dzięki czemu obsługuje zarówno sekwencje nukleotydowe, […]

Czytaj więcej

Tysiąc chińskich genomów złożonych dzięki nowej metodzie PIGA

Zespół kierowany przez prof. Jiana Yanga z Westlake University opracował metodę PIGA (pangenome-informed genome assembly), która umożliwia składanie diploidalnych genomów ludzkich na dużą skalę przy znacznie obniżonych kosztach sekwencjonowania. W ramach projektu 1000 Chinese Pangenome (1KCP) naukowcy złożyli 1116 diploidalnych genomów, łącząc odczyty krótkie (Illumina) i długie (PacBio) z informacją z pangenomu referencyjnego. Analiza ujawniła […]

Czytaj więcej