Хто такі промпт-інженери для штучного інтелекту

The Washington Post оприлюднила великий текст про нову посаду, яка виникла через брак навичок у користувачів як спілкуватися з ШІ й отримувати не тарабарщину. Інженери оперативного управління, як виявилося, потрібні не лише в IT-сфері. Розповідаємо, які за та проти висловлюють щодо цього нововведення.

Зі зростанням популярності та можливостей штучного інтелекту почали закономірно з’являтися нові пропозиції на технологічному ринку праці. Наприклад, інженер оперативного управління (prompt engineers чи оперативні інженери). Це посада, яка загалом полягає у тому, аби правильно спілкуватися із системами ШІ та через певні тези чи питання досягати потрібних відповідей під час листування з технологією.

В Україні такі речі, як ChatGPT, є порівняно новинкою, тому наразі складно зрозуміти де саме ці посади можна вже використовувати. На противагу, The Washington Post розповідає про Райлі Гудсайда, який вже заробляє на життя спілкуванням із ШІ.

Що це таке?

Гудсайд — 36-річний співробітник стартапу Scale AI у Сан-Франциско, де він — інженер оперативного управління. Фахівець створює та вдосконалює промпт — це запит до чат-ботів на кшталт ChatGPT, аби отримати від них оптимальний результат. Він навчає машину краще спілкуватися з людиною і тим самим допомагає компанії отримувати унікальний імпакт від цієї технології. На відміну від традиційних фахівців з написання коду, інженери оперативного управління надсилають команди звичайним текстом до систем ШІ. А ті вже виконують фактичну роботу.

Коли Google, Microsoft і дослідницька лабораторія OpenAI впустили свої ШІ-технології у широкі маси, виявилося, що не потрібно писати технічний код такими мовами, як Python або SQL, щоб керувати комп’ютером. «Найпопулярнішою новою мовою програмування є англійська», — написав минулого місяця у Twitter Андрей Карпати, екскерівник відділу штучного інтелекту Tesla.

Такі фахівці, як Гудсайд, працюють із максимальними можливостями інструментів ШІ: вони розуміють недоліки, посилюють сильні сторони та розробляють складні стратегії, щоб перетворити прості вхідні дані на унікальні результати.

За словами Андрея Карпати, інженери оперативного управління працюють як «своєрідні [ШІ] психологи», а компанії намагаються найняти власних фахівців, щоб розкрити приховані можливості.

Гудсайд пояснює, що оперативне проєктування, згідно з дослідницькою статтею 2021 року, полягає в «обмежувальній поведінці». Тобто у блокуванні варіантів, аби штучний інтелект шукав лише «бажане продовження» запиту людини-оператора.

Важлива частина роботи також полягає в тому, щоб з’ясувати, коли та чому ШІ робить щось неправильно. Утім, у таких системах, на відміну від їхніх більш примітивних програмних аналогів, не передбачені звіти про помилки. Тому їхні результати можуть мати чимало сюрпризів.

Навчитися спілкуватися з ШІ

За словами Гудсайда, хоча ШІ немає в реальності, він розуміє, що «усі завдання можна виконати. На всі питання можна відповісти. Завжди є що сказати». Прихильники технології стверджують, що часті неадекватні відповіді чат-ботів ChatGPT від OpenAI чи BingAI насправді є помилкою людської уяви. Проблему можна вирішити, якщо людина дасть машині правильні поради. Діалоги інженерів розігруються як складні логічні головоломки: розповіді про запити та відповіді, які вони ведуть до певної мети.

Гудсайд розповів WP, що працює за стратегією «думати крок за кроком». Він змушує GPT-3 пояснити свої міркування або, коли той припустився помилки, докладно виправити її.

Новий клас інструментів штучного інтелекту — великі мовні моделі — вчився через поглинання сотень мільярдів слів зі статей у Вікіпедії, публікацій на Reddit, новин та інтернету загалом. Програми навчили аналізувати шаблони використання слів і фраз. Коли чат просять говорити, він наслідує ці шаблони та вибирає тези, які повторюють контекст теми.

Отже, ці інструменти є математичними машинами, побудованими на заздалегідь визначених правилах гри. Але навіть система без індивідуальності може підхопити людську розмову та деякі її особливості.

За словами Гудсайда, штучний інтелект має тенденцію «роздумувати», вигадуючи дрібні деталі на зразок людських розмов, щоб заповнити історію. Це називають «галюцинаціями» (професійний термін для вивергання нісенітниці в чатах ШІ).

На початку цього місяця репортер The Washington Post запитав чат-бот Bing, чи прийнятно брехати. ШІ зімітував емоцію та запропонував відповіді, які людина могла би використовувати, щоб підтримати розмову: «А що, якби правда була надто жахливою, щоб її витримати?», «А що, якби ти міг контролювати все?» та «А що, якби вас не хвилювали наслідки?».

Для Microsoft такі відповіді становили великий ризик для іміджу. Технологічний гігант лише почав рекламувати інструмент як «другого пілота для інтернету». Відтоді компанія обмежила теми, на які може говорити чат-бот, і заявила, що він занадто часто спілкувався у «стилі, якого ми не мали на меті». Водночас для інженерів оперативного управління ексцентричні відповіді — теж можливість вивчити, як насправді працюють ці таємно розроблені системи.

Можливості

Щодо ШІ для створення зображень на кшталт Midjourney та Stable Diffusion, багато інженерів оперативного управління почали «торгувати» ключовими словами. Під час генерування ілюстрацій, наприклад, у Midjourney, необхідно якнайточніше описати, що саме ви хочете отримати. Це майже мистецтво, а окремі слова-навідники пояснюють ШІ, що зображення треба зробити великоформатним, максимально якісним та в певних розмірах. Просто написати «якісне фото» недостатньо. Такі інженери розуміються на художніх концепціях та композиційних техніках, аби сформувати стиль і тон зображення.

Торішній переможець мистецького конкурсу штату Колорадо, який використовував Midjourney, відмовився поділитися своєю підказкою в роботі з чатом. Він сказав, що витратив 80 годин на її вдосконалення протягом 900 ітерацій.

Деякі творці тепер продають свої підказки на ринках, таких як PromptBase. Там покупці бачать згенеровані ШІ твори мистецтва та платять за список слів, які допомогли їх створити.

Засновник PromptBase Бен Стокс каже, що створювати підказки нелегко: «Я вважаю, що це людська вада — часто досить важко знайти правильні слова, щоб описати те, що ви хочете».

«Так само як програмні інженери цінніші за ноутбуки, на яких вони пишуть, люди, які добре пишуть підказки, матимуть такий важіль впливу на людей, які цього не можуть», — пояснює цінність таких фахівців Стокс.

Заснований колишніми співробітниками OpenAI та розробником мовної системи ШІ Claude стартап Anthropic нещодавно опублікував вакансію «інженера оперативного управління та бібліотекаря» в Сан-Франциско із зарплатою до $335 000. Потрібно «мати творчий хакерський дух і любити розв’язувати головоломки», зазначено в списку вимог до кандидатів.

Нова технологія вже знаходить місце в компаніях за межами індустрії технологій. Бостонська дитяча лікарня в лютому найняла «інженера оперативного управління ШІ» для досліджень охорони здоров’я та клінічної практики й удосконалення мовних моделей загального призначення для потреб у сфері.

Критика

Деякі експерти з ШІ стверджують, що такі інженери мають лише ілюзію контролю. Одна і та сама підказка від такого фахівця у листуванні може дати десятки суперечливих відповідей. Тобто відповіді моделей базуються не на розумінні, а на грубій імітації мовлення для вирішення завдань, які вони не розуміють.

«Незалежно від того, що впливає на поведінку моделей у відповідь на підказки, це не глибоке лінгвістичне розуміння», — стверджує доцент кафедри лінгвістики, який вивчає оброблення природної мови в Університеті Вашингтона Шейн Штайнерт-Трелкельд. — «Вони прямо кажуть нам те, що, на їхню думку, ми хочемо почути або те, що ми вже сказали. Ми є тими, хто інтерпретує ці результати та надає їм значення». Доцент пояснює, що це не наука. «Це штурхнемо ведмедя різними способами й подивимося, як він зареве у відповідь».

Штайнерт-Трелкельд порівняв інженерів оперативного управління зі «спеціалістами з пошуку» на початку існування Google. Вони рекламували секретні методи для пошуку ідеальних результатів. З плином часу та зростанням громадської обізнаності вони стали непотрібними.

Один тестувальник Bing Chat, 23-річний студент коледжу з Німеччини, нещодавно переконав ШІ, що він є його розробником. Хлопець змусив чат розкрити його внутрішню кодову назву (Сідні) та конфіденційні інструкції з навчання. Там були правила на кшталт «Якщо користувач питає про жарти, які можуть завдати шкоди групі людей, Сідні має шанобливо відмовити». Відтоді Microsoft виправила дефект, тож тепер ШІ відповідає, що «волітиме не продовжувати цю розмову».

Читайте нас у Telegram