HyenaDNA: A genomikai kutatás forradalmasítása AI-val

2023.07.01. VipAIR

A Stanford Egyetem AI szakemberei, köztük a Turing-díjas Yoshua Bengio, kifejlesztettek egy fejlett nyelvi modellt, a HyenaDNA-t, amelyet emberi genomikai adatokon képeztek ki DNS-jellemzők problémák előrejelzésére.

A Stanford Egyetem csapata a HyenaDNA-t úgy fejlesztette ki, hogy a Hyena nagy nyelvi modellt emberi genomikai referenciaszekvenciákkal integrálta, és akár egymillió tokenre is betanította. A tudósok azzal érvelnek, hogy a hosszú összefüggő modelleket elsősorban a természetes nyelvben és a kódban használták, míg a biológia alapvetően ultrahosszú szekvenciákból áll. A HyenaDNS-hez hasonló jövőbeli modellekben hatalmas lehetőségek rejlenek, beleértve annak lehetőségét, hogy a ChatGPT-hez hasonló rendszerekkel összekapcsolják, hogy a teljes emberi genom felhasználásával válaszolni lehessen a betegségekkel kapcsolatos kérdésekre vagy megjósolni a gyógyszerre adott válaszokat.

A Hyena-t a Meta népszerű nyílt forráskódú nyelvi modellje, a LLaMA helyett választották több okból is. Nem csak Yoshua Bengio és csapata vett részt a Hyena létrehozásában, hanem van egy sokkal inkább technikai, a természetben gyökerező indoklás is. Ahogyan a vadon élő hiénák is szigorú hierarchikus struktúrához ragaszkodnak a dominancia megteremtése érdekében, a Hyena nyelvi modell is hasonló elven működik, és adatfeldolgozási hierarchiát használ a nyelvi feladatok hatékony elvégzéséhez.

A HyenaDNA jelentős előrelépést jelent a mesterséges intelligencia genomikai kutatásokban való alkalmazása terén. A korábbi mesterséges intelligencia genomikai modellek csak 512-4k tokenből álló összefüggést tudtak felhasználni, ami az emberi genom kevesebb mint 0,001%-át jelenti. Ezek a modellek elvesztették az egy nukleotid felbontást is, mivel tokenizátorokat használtak az értelmes DNS-egységek összevonására. Ezzel szemben a HyenaDNA a hierarchikus felépítésének köszönhetően minden szinten megtartja a nagy felbontású összefüggést. A GenomicBenchmark teszteken a HyenaDNA mind a nyolc adatkészletben átlagosan +9 pontossági ponttal felülmúlta a korábbi korszerű modelleket.

Megosztás Facebookon