Стабилността на AI е в основата на усилията за въвеждане на машинното обучение в жизненоважната област

AI الاستقرار стабилностПодкрепеният проект стартиращ зад системата Stable Diffusion AI текст към изображение финансира мащабни усилия за прилагане на AI към границите на биотехнологиите. Повикване OpenBioMLПървите проекти за начинание ще се съсредоточат върху подходи, базирани на машинно обучение за секвениране на ДНК, сгъване на протеини и изчислителна биохимия.

Основателите на компанията описват OpenBioML като „отворена изследователска лаборатория“ — и тя има за цел да изследва пресечната точка на изкуствения интелект и биологията в среда, в която студенти, професионалисти и изследователи могат да участват и да си сътрудничат, според главния изпълнителен директор на Stability AI Емад Мостаке.

„OpenBioML е една от независимите изследователски общности, поддържани от стабилност“, каза Мустак пред TechCrunch в интервю по имейл. “Стабилността се стреми да напредне и демократизира ИИ, а с OpenBioML виждаме възможност да развием най-новото в науката, здравеопазването и медицината.“

Според полемика Surrounding Stable Deployment – ​​стабилна AI система, която генерира изкуство от текстови описания, подобно на DALL-E 2 на OpenAI – човек разбираемо може да се притеснява от първия проект за AI за стабилност в здравеопазването. Стартъпът е възприел подход на управление, като позволява на разработчиците да използват системата както пожелаят, включително Deepfakes на знаменитости И на порнография.

Стабилност Етично съмнителни решения за изкуствен интелект Досега машинното обучение в медицината е минно поле. Въпреки че тази технология е успешно приложена за диагностициране на състояния като кожни и очни заболявания, между другото, изследванията показват, че алгоритмите могат да развият отклонения, които водят до по-лоши грижи за някои пациенти. През април 2021г проучваненапример, установи, че статистическите модели, използвани за прогнозиране на риска от самоубийство при пациенти с психично здраве, се представят добре за бели и азиатски пациенти, но зле за чернокожи пациенти.

OpenBioML започва разумно с по-сигурна зона. Първите й проекти:

  • beulmкойто се стреми да прилага техники за обработка на естествен език (NLP) в областта на изчислителната биология и химия

  • ДНК пролиферациякоято има за цел да разработи изкуствен интелект, който може да генерира ДНК последователности от текстови подкани

  • LibreFoldкойто се стреми да увеличи достъпа до AI системи за прогнозиране на структурата на протеини, подобни на DeepMind Алфа сгъване 2

Всеки проект се ръководи от независими изследователи, но Stability AI предоставя поддръжка под формата на достъп до хостван от AWS набор от повече от 5000 графични процесора Nvidia A100 за обучение на AI системи. Според Николо Заничели, студент по компютърни науки в университета в Парма и един от главните изследователи в OpenBioML, това ще бъде Достатъчна мощност за обработка и съхранение за паралелно обучение на до 10 системи, подобни на AlphaFold 2.

“Много изследвания в областта на изчислителната биология вече водят до версии с отворен код. Голяма част от тях обаче се провеждат на ниво една лаборатория и следователно обикновено са ограничени от недостатъчни изчислителни ресурси”, каза Заничели пред TechCrunch по имейл. „Искаме да променим това, като насърчим сътрудничеството в голям мащаб и с подкрепата на Stability AI подкрепяме тези сътрудничества с ресурси, до които имат достъп само най-големите индустриални лаборатории.“

Генериране на ДНК последователности

да се Текущи OpenBioML проекти, Разпространението на ДНК – ръководено от лабораторията на професор Лука Пинело в Масачузетската обща болница и Медицинското училище в Харвард – е може би най-амбициозното. Целта е да се използват генеративни AI системи, за да се научат и прилагат правилата на “регулаторната” последователност на ДНК или части от ДНК молекули, които влияят върху експресията на специфични гени в даден организъм. Много болести и разстройства са резултат от лоша генна регулация, но науката все още не е открила надежден процес за идентифициране – да не говорим за промяна – на тези регулаторни последователности.

DNA-Diffusion предлага използването на тип система за изкуствен интелект, известна като дифузионен модел, за генериране на специфични за клетъчния тип регулаторни ДНК последователности. Дифузионните модели – които поддържат генератори на изображения като Stable Diffusion и DALL-E 2 на OpenAI – генерират нови данни (като ДНК секвениране), като се учат как да унищожават и възстановяват много проби от съществуващи данни. Тъй като им се подават проби, моделите стават по-добри при възстановяването на всички данни, които преди това са унищожили, за да създадат нов бизнес.

Стабилност AI OpenBioML

Кредити за изображения: OpenBioML

„Дифузията постигна широк успех в мултимодалните генеративни модели и сега започва да се прилага в изчислителната биология, например за генериране на нови протеинови структури“, каза Заничели. „С разпространението на ДНК сега изследваме приложението й към генетични последователности.“

Ако всичко върви по план, проектът за пролиферация на ДНК ще създаде модел на пролиферация, който може да генерира ДНК регулаторни последователности от текстови инструкции като „Последователност, която активира гена до неговото максимално ниво на експресия в клетка тип X“ и „Последователност, която активира ген в черния дроб и сърцето, но не и в мозъка. Такъв модел може също така да помогне да се обяснят компонентите на регулаторните последователности – подобряване на разбирането на научната общност за ролята на регулаторните последователности при различни заболявания, казва Занечели.

Струва си да се отбележи, че това е до голяма степен теоретично. Докато предварителните изследвания за приложението на дифузията за нагъване на протеини изглежда са обещаващЗаничели признава, че това са много ранни дни – оттук и импулсът да се ангажира по-широката общност на ИИ.

Предсказване на протеинови структури

LibreFold от OpenBioML, макар и с по-малък обхват, вероятно ще се изплати веднага. Проектът се стреми да придобие по-добро разбиране на системите за машинно обучение, които предсказват протеиновите структури, както и начините за тяхното подобряване.

Като колегата ми Девин Колдуи Покрити В неговата статия за работата на DeepMind върху AlphaFold 2, AI системите, които точно предсказват формата на протеин, са сравнително нови за сцената, но трансформиращи по отношение на техните възможности. Протеините са направени от последователности от аминокиселини, които се сгъват във форми, за да изпълняват различни задачи в живите организми. Определянето на формата, която би създала киселинна последователност, беше досаден и податлив на грешки процес. AI системи като AlphaFold 2 промениха това; Благодарение на тях повече от 98% от протеиновите структури на човешкото тяло днес са известни на науката, както и стотици хиляди други структури в живи организми като ешерихия коли и дрожди.

Въпреки това, малко групи имат инженерния опит и ресурси за разработване на този тип AI. DeepMind прекара дни в обучение на AlphaFold 2 Единици за обработка на обтегачи (TPU), скъпият ускорител на Google за изкуствен интелект. Наборите от данни за обучение за киселинно секвениране често са патентовани или пуснати с нетърговски лицензи.

Протеините се сгъват в своята триизмерна структура. Кредити за изображения: Кристоф Бургстед/Научна фотобиблиотека/Гети изображения

„Това е жалко, защото ако погледнете какво е успяла общността да изгради върху контролната точка AlphaFold 2, пусната от DeepMind, това е просто невероятно“, каза Заничели, имайки предвид обучения модел AlphaFold 2, пуснат от DeepMind миналата година . “Например, няколко дни след издаването, професорът от Националния университет в Сеул Minkyung Baek съобщи за измама в Twitter, която позволи на модела да предскаже Четворни структури – нещо малко, ако има такова, на което моделът би очаквал да бъде способен. Има толкова много други примери от този вид, кой знае какво би могла да изгради по-широката научна общност, ако имаше способността да обучи напълно нови методи за предсказване на подобна на AlphaFold протеинова структура? “

въз основа на работа Роуз Тафолд и OpenFold, две текущи усилия на общността за копиране на AlphaFold 2, LibreFold ще улесни „мащабни“ експерименти с различни системи за прогнозиране на сгъване на протеини. Според Заничели фокусът на LibreFold, ръководен от изследователи от Университетския колеж в Лондон, Харвард и Стокхолм, ще бъде върху по-доброто разбиране на това какво могат да постигнат системите и защо.

“LibreFold е по същество общност от общностен проект. Същото важи и за пускането както на контролни точки на модели, така и на набори от данни, където може да ни отнеме само месец или два, за да започнем да пускаме първите резултати, или може да отнеме много повече време.” „Моето предчувствие обаче е, че първото е по-вероятно.“

Приложението на НЛП в биохимията

В по-дълъг времеви хоризонт OpenBioML’s Проектът BioLM, който има по-двусмислена мисия да „приложи техники за лингвистично моделиране, извлечени от НЛП, към биохимични последователности“. В сътрудничество с EleutherAI, изследователска група, която пусна няколко модела за генериране на транскрипт с отворен код, BioLM се надява да обучи и публикува нови „биохимични езикови модели“ за набор от задачи, включително генерирането на протеинови последователности.

Zanichelli се позовава на Salesforce ProGen Като пример за видовете бизнеси, които BioLM може да започне. ProGen третира аминокиселинната последователност като думи в изречение. Обучен върху набор от данни от повече от 280 милиона протеинови последователности и свързани метаданни, моделът предвижда следващия набор от аминокиселини от предишните, подобно на езиков модел, който предвижда края на изречението от началото му.

Nvidia пусна по-рано тази година примерен език, Мега Мол Част, беше обучен на набор от данни от милиони молекули за търсене на потенциални мишени за лекарства и прогнозиране на химически реакции. Също наскоро мъртъв обучени НЛП, наречена ESM-2 за секвениране на протеини, подход, за който компанията твърди, че й е позволила да предвиди последователностите на повече от 600 милиона протеини само за две седмици.

Свиване на мета протеина

Свиване на мета протеина

Протеинови структури, предвидени от системата Мета. Кредити за изображения: мъртъв

Гледам напред

Докато интересите на OpenBioML са широки (и обширни), Mostaque казва, че те са обединени от желанието да „увеличат максимално положителния потенциал на машинното обучение и изкуствения интелект в биологията“, в съответствие с традицията на отворените изследвания в науката и медицината.

„Очакваме с нетърпение да дадем възможност на изследователите да получат повече контрол върху своя експериментален тръбопровод за активно обучение или за целите на валидиране на модела“, продължи Мустак. „Също така очакваме с нетърпение напредъка в съвременните технологии чрез все по-общи биотехнологични модели, за разлика от специализираните архитектури и учебни цели, които в момента характеризират повечето изчислителна биология.“

Но – както се очакваше от стартиране, подкрепено от VC наскоро нишесте Над $100 милиона – AI за стабилност не гледа на OpenBioML като на чисто филантропско усилие. Mostaque казва, че компанията е отворена за проучване на комерсиализацията на технологията от OpenBioML, „когато е достатъчно напреднала, достатъчно сигурна и когато настъпи подходящият момент“.