ERA: ШІ автоматизує науковий код, перевершуючи людські розробки

Нова система ШІ ERA автоматизує розробку наукового програмного забезпечення

Команда дослідників з Google, співкерівником якої є Майкл Бреннер, професор прикладної математики та фізики Гарвардської школи інженерії та прикладних наук (SEAS) та науковий співробітник Google, створила нову систему штучного інтелекту. Ця система здатна автоматично писати наукові програмні програми, які перевершують за продуктивністю програми, написані людьми. Система, опублікована в журналі Nature, отримала назву Empirical Research Assistance (ERA). Проєкт також очолював Шибл Мурад з Google DeepMind. Гарвардські аспіранти Цянь-Цзе Чжу, Раян Крюгер та Сара Мартінсон зробили свій внесок як студенти-дослідники Google, працюючи в групі Бреннера.

Що таке "емпіричне програмне забезпечення" та чому це важливо

У сучасній науці постійно використовується спеціалізоване програмне забезпечення для перевірки конкретних гіпотез або інтерпретації складних даних. Автори називають цей тип комп'ютерних програм "емпіричним програмним забезпеченням". Його єдина мета — максимально ефективно виконувати наукове завдання, наприклад, робити прогнози погоди або прогнозувати госпіталізації під час спалаху хвороби. Будь-яка проблема, яку можна виразити числовим значенням — її "оцінкою" — називається "оцінюваною задачею" (scorable task). Емпіричне програмне забезпечення для вирішення таких завдань лежить в основі значних досягнень у багатьох галузях, включаючи три нещодавні Нобелівські премії з хімії.

Однак розробка спеціалізованого, індивідуально створеного програмного забезпечення для цих експериментів є трудомісткою, вимагаючи від людини багаторазового тестування та вдосконалення коду. Цей процес може займати місяці або навіть роки для експертів.

Як працює ERA

Нова система ERA усуває це вузьке місце, автоматизуючи повний цикл розробки та вдосконалення наукового програмного забезпечення. Система поєднує велику мовну модель Google Gemini зі стратегією пошуку для дослідження та вдосконалення тисяч фрагментів коду — набагато швидше та з більшим охопленням, ніж це могла б зробити людина.

Починаючи з базового фрагмента коду, спрямованого на конкретну проблему, система ШІ пропонує модифікації, додаючи нові компоненти або змінюючи алгоритми, з метою покращення заздалегідь визначеної оцінки якості. Наприклад, наскільки точно ця модель може передбачити поширення хвороби на основі минулих даних про госпіталізації, або наскільки добре ця модель прогнозує форму білків на основі послідовностей амінокислот. Система використовує метод пошуку за деревом (tree search), який також застосовується в ігрових системах, таких як AlphaGo, щоб вирішити, які перспективні ідеї варто розвивати, а які відкинути.

Інтеграція дослідницьких ідей

ШІ не працює ізольовано. У процесі його можна направляти дослідницькими ідеями з наукових робіт або підручників. Ці ідеї можуть бути надані безпосередньо користувачем або автоматично отримані та включені в пізніші версії коду. Ця здатність інтегрувати та рекомбінувати дослідницькі ідеї дозволяє системі знаходити "голку в стозі сіна" — рішення, які людські дослідження, можливо, ніколи б не змогли перевірити.

Практичні застосування та результати

Щоб довести ефективність ERA, команда Гарварду та Google застосувала систему до різноманітних наукових проблем.

Прогнозування активності нейронів: Доктор філософії Гарварду Цянь-Цзе Чжу використовував ERA для прогнозування активності понад 70 000 нейронів у мозку риби даніо та порівняння з фактичними нейронними даними. В одному експерименті команда запропонувала ERA використовувати існуючу бібліотеку моделювання нейронів для створення більш фізично точних симуляцій нейронної активності. Це завдання зайняло б у Чжу тижні або місяці вивчення нового програмного пакета, але ERA змогла автоматично зібрати та налаштувати моделі.
Прогнозування госпіталізацій COVID-19: В одному тесті система ERA згенерувала 14 моделей для прогнозування госпіталізацій COVID-19, які перевершили найкращі моделі Центрів з контролю та профілактики захворювань США, що використовувалися під час пандемії.
Інтеграція даних РНК-секвенування: В іншому експерименті ERA виявила чотири нові методи інтеграції наборів даних одноядерного РНК-секвенування, перевершивши провідні підходи, розроблені людьми.

Прискорення наукових відкриттів

Зменшуючи час, необхідний для дослідження набору ідей, з місяців до годин або днів, нова система може значно заощадити час вчених. Це дозволить їм зосередитися на "справді творчих та критичних викликах, а також продовжувати визначати та пріоритезувати фундаментальні дослідницькі питання та соціальні виклики, які наукові дослідження можуть допомогти вирішити".

Що це означає для розробників

Ця система автоматизує повний цикл розробки та вдосконалення наукового програмного забезпечення, пропонуючи модифікації та генеруючи код. Вона може інтегрувати та рекомбінувати дослідницькі ідеї, що дозволяє розробникам зосередитися на більш складних завданнях.

Ключові факти

ERA (Empirical Research Assistance) – нова система ШІ для автоматичного написання наукового програмного забезпечення.
Система розроблена командою Google спільно з Гарвардським університетом, опублікована в Nature.
ERA поєднує велику мовну модель Google Gemini зі стратегією пошуку для створення та вдосконалення коду.
Вона автоматизує повний цикл розробки та вдосконалення наукового програмного забезпечення, що раніше займало місяці або роки.
ERA перевершила людські розробки у прогнозуванні госпіталізацій COVID-19 та інтеграції даних РНК-секвенування.