Перекласти мову цифр на загальновживані мови. Як працюють дата-журналісти в Україні

Четвер, 19 Січня, 2023

Люди

Мілана Головань

Робота з даними не надто поширена на українському медіаринку, проте дуже цінна. З великих масивів інформації можна створити корисний, візуально сприйнятливий та унікальний контент. Утім, важливо правильно обробляти та подавати його звичайному читачеві. «Медіамейкер» поспілкувався з журналістами, які мають досвід роботи з даними: (на обкладинці зліва направо) Олександром Надельнюком, Євгенією Дроздовою та Володимиром Ландою про плюси/мінуси/підводні камені їхньої роботи, а також стан української журналістики даних.

Що таке дата-журналістика простими словами?

Серед опитаних спікерів визначення зводиться до того, що дата-журналістика — це переклад мови цифр на загальновживані мови. 

«Я колись почув від редактора, що моє завдання як журналіста даних  — знайти там історію. Журналістика даних — це про інформацію, яку можна систематизувати, структурувати (зазвичай у табличному вигляді), проаналізувати та, якщо є така змога, потім наочно гарно ілюструвати за допомогою інфографіки», — розповідає дата-аналітик Олександр Надельнюк (колишній журналіст даних у виданні Liga.net)

З якими даними та інструментами працюють у журналістиці даних?

Усі дані — це окрема журналістська історія.

«У металургійному виробництві існують переділи — з руди в чавун, із чавуна — у сталь, зі сталі — у прокат. У дата-журналістиці з «сирих» даних отримують відфільтровані, а далі їх візуалізують та складають в історії», — пояснює заступник головного редактора й керівник відділу даних Forbes Україна Володимир Ланда

Схема процесу роботи дата-журналістики, створена журналістом Мірко Лоренцом

«Хибно думати, що журналістика даних — це винятково бази даних на сотні тисяч рядків», — пояснює журналістка даних у нішевому виданні Texty.org.ua Євгенія Дроздова.

Ви завжди знайдете щось під ваш рівень технологічних навичок, головне мати цікаву історію або ідею. 

У складних даних варто фокусуватися на цікавому аспекті й грамотній візуалізації — це спрощує для читача сприйняття матеріалу. Не варто намагатися «витягнути» нецікаву історію яскравою візуалізацією.

Євгенія Дроздова каже, що в Україні небагато цікавих відкритих даних. Варто розуміти, що існують агреговані та неагреговані дані:

«Візьмімо, наприклад, статистику злочинів. Агреговані дані — це назва області чи району, категорія і загальна кількість за місяць/квартал/рік. Саме в такому вигляді їх публікує Генпрокуратура України. Неагреговані — це коли за кожним злочином  є інформація про його дату, тип, стан розслідування, місце скоєння та інші деталі. Такі дані публікують, наприклад, США. Переглянути зразок приклад можна на сайті поліції Чикаго. Про такі стандарти  відкритих даних журналісти в Україні можуть хіба що мріяти».

На початку грудня Texty.org.ua випустили проєкт про мережу російських агентів в Європі. Дані для цього проєкту журналісти збирали та перевіряли вручну, а робота над проєктом тривала майже пів року. 

Дата-журналістика також працює із текстовими даними. Наприклад, за словами Євгенії Дроздової, її колеги вже кілька років аналізують російську пропаганду. В цих даних немає цифр — це велика база текстів, але застосування машинних алгоритмів для їхнього аналізу та класифікації також стосується журналістики даних.

Можна зробити хороший зразок журналістики даних, використовуючи набагато простіші інструменти. Наприклад, Google Sheets та OpenRefine для чистки й аналізу, та онлайн-застосунок Flourish чи Datawrapper для візуалізації.

Володимир Ланда працює у Forbes як із відкритими даними, так і з тим, що може отримати завдяки довірі бренду видання. 

«Один із методів отримання інформації для наших найбільших рейтингів — це прямі запити до 100+ компаній. Найбільша кількість відповідей, яку ми збирали для одного матеріалу — 25 864. Стільки працівників відповіли нам на питання щодо своєї компанії для створення рейтингу роботодавців на початку 2022 року», — розповідає Ланда.

Детальний кейс Олександра Надельнюка

  1. Вам доведеться працювати з поганими неякісними даними. Це коли вони ніби опубліковані, але їх ще потрібно довго чистити, щоб потім аналізувати. Ось тут є український переклад книжки про організацію даних у таблицях, яку варто прочитати навіть якщо ви не дата-журналіст. 
  2. Excel. Це база, фундамент, після якого ви можете вчити мови програмування.
  3. Знання зі статистики. Щоби зробити якісний та цікавий аналіз даних, які ви знайшли або зібрали, треба знати трохи статистичних методів. Матеріалів, за якими можна підтягнути знання в цій сфері, дуже багато, але про всяк випадок залишу цю книжку.
  4. Візуалізація. Є «статична» інфографіка та інтерактивна в інтернеті. Для інтерактивної вам треба знати HTML, CSS та основи JavaScript (JS, не плутати з Java). Рекомендую на початку перероблювати шаблони графіків із Highcharts замість сервісів типу Infogram та DataWrapper. Будете почуватися впевненіше з кодом та робитимете більш нетипові графіки. JS добре вивчати за цим підручником.
  5. Вебскрапінг. Ви зекономите собі купу часу та відкриєте для себе неймовірні можливості від написання статей до створення корисних застосунків, якщо навчитесь автоматизовано збирати дані з інтернету. 
  6. Переважно для більшості цікавих та великих проєктів треба володіти мовою програмування Python або R. Це спростить ваше життя і пришвидшить роботу з даними. Найпростіша книжка про Python — тут
  7. Складна візуалізація. Коли ви освоїли базовий рівень JS, варто спробувати вивчити D3.js. Це бібліотека JavaScript, створена спеціально для інтерактивної візуалізації. На перший погляд, вона нелегка. Мені допомогла ця книга.

З яким професійним бекграундом чи навичками простіше починати працювати з журналістикою даних?

Володимир Ланда вважає, що робота в журналістиці даних — це поєднання журналістських та аналітичних навичок. Проте, за словами Ланди, дуже небагато людей можуть бути одночасно висококласним журналістом та аналітиком. Утім, для створення якісних матеріалів можна розділяти ці функції між різними людьми.

На думку Олександра Надельнюка, ідеальний кандидат — це людина, яка знається на статистиці, програмує на Python чи R, вміє скрапити чи автоматизовано збирати дані, гарно візуалізувати та розповідати зрозуміло й цікаво розповідати про знайдені залежності чи робити описову статистику. Але на практиці для початківця бекграунд неважливий.

За словами Надельнюка, вже непогано, якщо ви вмієте працювати з Excel та розумієте, чому він кращий за табличку в Microsoft Word. Знання англійської хоча б на рівні «напіввільного» читання також будуть у пригоді, адже більшість якісної інформації в інтернеті та книгах про журналістику даних (та й загалом про аналіз даних) написана англійською.

Як навчитися працювати з даними?

Євгенія Дроздова радить придивлятись, як саме провідні видання розказують ті чи інші історії, як використовують форми та кольори. Також можна намагатися досліджувати щось самостійно.

«Читаючи готовий матеріал, зазвичай можна дати базову оцінку його якості. В аналітиці — це увага до дрібниць, припущення, похибки, округлення, спрощення, які використовуються під час підготовки матеріалу, але не мають прямого відображення в тексті. Це відрізняє непогану аналітику від найкращої», — розповідає Володимир Ланда.

«Публікації з журналістики даних часто супроводжуються докладним описом методології, іноді редакції викладають навіть програмний код алгоритмів, які вони використовували. Наприклад, для нашого матеріалу “Твіттер-боти Медведчука” мій колега використав методологію The New York Times. NYT опублікувало цікаве дослідження про те, як зірки, політики та інші відомі люди використовують ботів у Twitter, а колега спробував застосувати цей алгоритм для дослідження акаунтів українських зірок та політиків. Звісно, в таких випадках важливо покликатися на оригінальне дослідження і чітко зазначити, що ви запозичили чужу ідею», — розповідає Євгенія Дроздова.

Журналістика даних багато інструментів запозичує з інших сфер. Це і data-science, бізнес-аналітика, машинне навчання та NLP, картографія, дизайн тощо. За словами Володимира Ланди, люди, які найкраще працюють з даними, зазвичай починають це робити задовго до усвідомлення, що саме цим вони й займаються. Головне — ніколи не припиняти ставити собі різні питання.

На кого зі світових дата-журналістів варто орієнтуватися початківцям?

Де б не працював дата-журналіст, він завжди порадить орієнтуватися на видання-бренди та великі компанії. 

Серед українських дата-журналістів Олександр Надельнюк вважає прикладом якісного фахівця Ярину Серкез. Медійниця працювала в Texty.org.ua, а потім поїхала навчатися в Штати. Пізніше працювала у The Wall Street Journal та NYT.

«Орієнтуватися варто на великі медіа з потужними командами дата-журналістів, на кшталт The Wall Street Journal чи NYT. У них є Twitter-акаунти саме команд графіки. Я одного разу знайшов сайт pudding.cool, де кілька людей роблять медіа винятково із журналістикою даних. Варто переглянути усі їхні матеріали хоча б просто для задоволення. Також можна орієнтуватися на їхніх журналістів у підході до написання текстів та кодингу», — каже Надельнюк.

Володимир Ланда радить орієнтуватися на тих спеціалістів, які вас вражають. За покликанням — найкращі візуалізації за версією Visual Capitalist 2022 року

Євгенія Дроздова радить проглядати лонг- та шорт-листи престижних премій, наприклад, «Information is Beautiful», «Sigma Awards».

Яка ситуація в Україні з дата-журналістикою?

На думку опитаних спеціалістів, українській дата-журналістиці є куди зростати. В Україні на цьому спеціалізуються тільки Texty.org.ua, хоча гарні нішеві матеріали випускають й інші видання: «Українська Правда», Liga.net, Forbes, «Детектор медіа», KyivPost. 

Також аналітичні матеріали з відкритих даних роблять деякі громадські організації, зокрема «Чесно», CEDOS. Нестачу аналітики даних компенсують «think tanks», які працюють переважно з економічною, соціально-політичною та військовою тематикою. Приклади — Центр економічної стратегії, Український інститут майбутнього, VoxUkraine.

Які власні матеріали ви вважаєте своїми найкращими?

Євгенія Дроздова, Texty.org.ua:

— Мені дуже подобається проєкт про історію голосувань «Як популізм накрив Україну». Ми з колегами показали, що не можна звужувати електоральну географію України лише до відмінностей між кількома регіонами. Наприклад, між східними та західними. Таке спрощення проводить штучні кордони, а реальна ситуація значно цікавіша та глибша.

Володимир Ланда, Forbes:

— У минулому я був головою аналітичного відділу інвестиційної компанії, тому для мене основною мотивацією роботи в Forbes була можливість створення рейтингу «100 найбагатших українців» та погодження оцінок найбагатших з редакцією глобального Forbes. Коли, наприклад, ми визначаємо щорічний список «Forbes 30 до 30», то щиро сподіваємося, що він допоможе кожному його учаснику бути успішнішим у своїй справі.Неважливо, чи це підприємець, громадський активіст, спортсмен, митець, військовий або волонтер.

Олександр Надельнюк, дата-аналітик:

— Як журналіст даних, я бачив свою місію не лише у написанні текстів та досліджень, а й у допомозі читачам у щоденному житті через низку онлайн-інструментів. Під час минулих парламентських виборів я створив перший зручний онлайн-інструмент, який допомагав виборцям аналізувати кандидатів зі своїх округів. Шлях користувача простий — треба ввести свою вулицю, щоб побачити список кандидатів. 
З початком COVID-19 я насамперед створив інструменти моніторингу захворюваності. За рік вже було корисно дізнатися, де можна отримати вакцину та куди подорожувати 2021 року. Коли я ще працював у VoxUkraine, ми створили інструмент для оцінки роботи депутатів на основі їхнього голосування за прогресивні реформи.

дата-журналістика | Медіа