Американське некомерційне видання новин The Markup засноване 2018 року, щоб розвивати журналістику даних. У команді видання працюють журналісти, які спеціалізуються на обчислювальній журналістиці та журналістиці даних. Вони досліджують технології та їхній вплив на суспільство на основі даних.
Джулія Енгвін, засновниця видання, виокремила 10 уроків, які потрібно знати виданням про алгоритми. Коротко переповідаємо їх.
Важливо ≠ секретно
Вибір теми для розслідування — найважливіше рішення, яке ухвалює редакція.
У The Markup розробили контрольний список розслідувань, який репортери заповнювали перед початком роботи над проєктом. На першому місці в ньому була не новизна чи розкриття секретів, а масштабність — скільки людей постраждало від проблеми, яку журналісти розслідують.
Спочатку гіпотеза, потім — дані
Для журналістів, які працюють з даними, надзвичайно спокусливо зануритися в набір даних у пошуках історії. Але це майже ніколи не є хорошим способом оцінити важливість теми.
Найкращі історії починаються з підказки чи здогадки, яку ви висвітлюєте та перетворюєте на гіпотезу, яку можна перевірити.
Гіпотези мають бути ретельно продумані. Твердження «Facebook невиправно поганий» не є гіпотезою, яку можна перевірити. А «Facebook не дотримався своєї обіцянки припинити рекомендувати політичні групи під час президентських виборів у США» — гіпотеза.
Дані — це політика
Дані мають силу. Той, хто їх збирає, має владу вирішувати, на що звертати увагу, а що ігнорувати. Люди та інституції, які мають гроші на створення величезних масивів даних, рідко мають стимул збирати інформацію, використанням якої можна кинути виклик їхній владі.
Журналістам часто доводиться збирати власні дані. Вони мають бути обізнані в соціальних науках, які необхідні для збору оригінальних даних у великих масштабах.
Визначте розмір вибірки
Часи, коли журналісти могли взяти інтерв’ю у трьох людей і заявити про тренд, на щастя, минули. Громадськість вимагає від медіа більш переконливих доказів.
Водночас не кожен доказ потребує великих обсягів даних. Лише один секретний судовий документ, наданий викривачем Едвардом Сноуденом, довів, що американські спецслужби таємно збирали журнали дзвінків кожного американця.
Привабливість статистики полягає в тому, що навіть коли ви досліджуєте велику систему, вам часто потрібен лише порівняно невеликий розмір вибірки. Головне, щоб вона була репрезентативною.
Прийміть шанси
Іноді набір даних розкриває правду без необхідності виконувати складні математичні розрахунки. Але для великих наборів даних статистика зазвичай є найкращим способом знайти в них сенс. Це може означати, що доведеться прийняти деякі ймовірні висновки.
У деяких випадках можна використати статистичний метод, який має назву random forest — категоріальний набір даних для порівняння продуктів. Тоді варто ставити запитання про доступні дані, доки не прийдете до певного рішення.
Вам потрібен наратив
Дані необхідні, але недостатні для переконання читачів. Люди схильні розповідати, ділитися та запам’ятовувати історії.
Статистичні дані — те, що в журналістиці називають nut graf — ядром історії. Вам все ще потрібен людський голос, щоб бути хребтом. Саме тут навички старої школи репортажу все ще неймовірно цінні. І вибір слів, і талановиті редактори мають вирішальне значення у створенні переконливої статті.
Експертиза має значення
Щоб захистити свою роботу і знайти помилки, варто обмінюватися статистичною методологією зі статистиками та експертами в галузі, де працює журналіст. Енгвін не ділиться наративною частиною статті до публікації — лише просить оцінити статистичну методологію.
Ніхто не зацікавлений у пошуку помилок більше, ніж суб’єкт розслідування. Тому рішення поділитися даними, кодом та аналізом з суб’єктами перед публікацією дає їм можливість осмислено долучитися до роботи та надати вдумливу відповідь.
Об’єктивність померла. Живуть обмеження
Одна з найкращих сторін використання наукового методу полягає в тому, що він виводить нас за межі нескінченних дебатів про те, чи є журналістика «справедливою» або «об’єктивною».
Замість того, щоб зосереджуватися на справедливості, краще зосередитися на тому, що ви знаєте і чого не знаєте. Коли репортер The Markup Еммануель Мартінес писав про приховану упередженість алгоритмів схвалення іпотечних кредитів, він не зміг отримати кредитні рейтинги заявників, оскільки уряд їх не оприлюднює. Тому він зазначив їх відсутність у розділі обмежень своєї методології.
Його аналіз все одно виявився достатньо надійним, щоб три федеральні агенції процитували його, оголошуючи про новий план боротьби з іпотечною дискримінацією.
Покажіть свою роботу
Журналісти мають проблему з довірою громадськості. Тепер, коли кожен у світі може публікуватися, журналісти мусять докладати більше зусиль, щоб довести, що їхня публікація є найбільш правдивою версією.
Демонстрація роботи, надання доступу до наборів даних, коду, який використовувався для аналізу даних, а також розгорнутої методології, зміцнює довіру читачів. Як додатковий бонус, методології часто отримують більшу відвідуваність сайту з часом, ніж описові статті.
Ніколи не здавайтеся
За даними Бюро трудової статистики, на кожного журналіста в США припадає шість фахівців зі зв’язків з громадськістю.
Це означає, що журналісти мусять використовувати всі можливі інструменти, які є в їхньому розпорядженні, щоб притягнути владу до відповідальності.
Так криміналістичний сканер конфіденційності в реальному часі Blacklight запускає серію тестів конфіденційності в режимі реального часу на будь-якому вебсайті. Журналісти можуть використовувати Blacklight щоразу, коли з’являється новина, пов’язана з конфіденційністю. Наприклад, нещодавно ProPublica використовувала Blacklight, щоб виявити, що онлайн-аптеки, які продають абортивні пігулки, ділилися конфіденційними даними з Google та іншими третіми сторонами.
Раніше ми розповідали про досвід, навички та методи українських журналістів, які працюють із даними.