Чверть усіх вебсторінок, що існували між 2013 і 2023 роками, більше не доступні. Найчастіше це пов’язано з тим, що окрема сторінка видалена або вилучена з іншого активного сайту. Більше про коротке життя вебсторінок онлайн-контенту — в даних від Pew Research Center.
Як дослідники визначали недоступні покликання та вебсторінки?
Дослідники дали таке визначення поняття «недоступна вебсторінка»:
- Сторінки більше не існує на хост-сервері, або сам хост-сервер більше не існує. Користувач зазвичай бачить помилку сервера 404 замість контенту, який він шукав. Дослідники вважали сторінки недоступними лише тоді, коли вони видавали один з дев’яти кодів помилок, які однозначно вказують на те, що сторінка та/або сервер, на якому вона розміщена, перестали функціонувати.
- адреса сторінки існує, але її контент змінили — іноді кардинально;
- сторінка існує, але певним користувачам — наприклад, або людям із порушеннями зору — може бути важко або неможливо її прочитати.
У своєму звіті дослідники зосередилися на першому з цих визначень — «сторінки, яких більше не існує».
Скільки вебсторінок уже недоступні?
Орієнтовно 38 % вебсторінок, які існували 2013 року, нині недоступні. Аналіз показав, що 23 % новинних сторінок містять щонайменше одне неробоче покликання, як і 21 % сторінок урядових сайтів. Особливо часто неробочі покликання зустрічаються на сайтах органів місцевого самоврядування.
54 % сторінок «Вікіпедії» мають принаймні одне покликання в розділі «Покликання», що вказує на сторінку, що більше не існує.
Щоб простежити цифровий занепад у соцмережах, фахівці також зібрали вибірку постів у X і відстежували їх протягом трьох місяців. Виявилося, що майже кожен п’ятий пост у соцмережі більше не відображається у відкритому доступі на сайті через кілька місяців після публікації.
А як щодо покликань на урядові сайти?
Дослідники відібрали приблизно 500 000 сторінок із державних вебсайтів, використовуючи загальний огляд інтернету за березень/квітень 2023 року, включно з поєднанням різних рівнів влади — федерального, штатного, місцевого та інших.
На державних вебсайтах було 42 млн покликань, із них 86 % були внутрішніми, тобто вони покликалися на іншу сторінку того самого сайту. Приблизно три чверті урядових вебсторінок мали принаймні одне покликання на сторінці. Типова сторінка містить 50 покликань, але багато сторінок містять набагато більше.
Інші факти про покликання на урядові вебсторінки:
- переважна більшість переходять на захищені сторінки HTTP (і мають URL-адресу, що починається з “https://”);
- 6 % переходять до статичного файлу, наприклад PDF-документа;
- 16 % тепер переспрямовують на іншу URL-адресу, ніж та, на яку вони спочатку вказали.
Загалом 21 % усіх державних вебсторінок, які перевірили дослідники, містили принаймні одне неробоче покликання. Сторінки міської влади мали найвищий рівень неробочих покликань.
Покликання на вебсайтах новин
Для цього аналізу дослідники відібрали 500 000 сторінок із 2063 вебсайтів, класифікованих компанією comScore як «Новини/інформація».
На всіх вибраних новинних сайтах ця колекція містила понад 14 млн покликань, що вказували на сторонні вебсайти. Орієнтовно 94 % цих сторінок мали принаймні одне зовнішнє покликання.
Переважна більшість цих покликань спрямовує на захищені HTTP-сторінки (ті, URL-адреса яких починається з «https://»). Приблизно 12 % покликань на цих новинних сайтах вказують на статичний файл, як-от PDF-документ. І 32 % покликань на новинних сайтах перенаправляли на іншу URL-адресу, ніж та, на яку вони вказували спочатку.
5 % усіх покликань на сторінках новинних сайтів більше не доступні. І 23 % усіх сторінок містили принаймні одне неробоче покликання.
Неробочі посилання приблизно так само поширені на новинних вебсайтах із найбільшим трафіком, як і на сайтах із найменшим трафіком. Приблизно 25 % сторінок новинних вебсайтів, які входять до 20 % найкращих за кількістю відвідувачів, мають принаймні одне неробоче покликання. Це майже ідентично 26% сайтів у нижніх 20 % за трафіком.
Довідкові покликання у «Вікіпедії»
Сюди потрапила вибірка з 50 000 англомовних сторінок «Вікіпедії», де перевірили покликання в розділі з джерелами. 82 % сторінок містили принаймні одне довідкове покликання, тобто таке, яке спрямовує читача на вебсторінку поза енциклопедією.
Загалом на всіх зібраних сторінках є трохи понад 1 млн довідкових покликань.
Аналіз показав, що 11 % усіх покликань у «Вікіпедії» більше не доступні. Приблизно на 2 % вихідних сторінок, що містять лінки, кожне покликання на сторінці було несправним або іншим чином недоступним, тоді як інші 53 % сторінок містили принаймні одне неробоче покликання.
Публікації в X
Для аналізу зібрали майже 5 млн постів, опублікованих із 8 березня до 27 квітня 2023 року в X. Це зробили за допомогою API X, збираючи 3000 загальнодоступних постів кожні 30 хвилин у режимі реального часу.
У висновках дослідження йдеться, що 18 % постів із початкового вікна збору даних більше не були загальнодоступними на сайті. Це переважно сталося через те, що обліковий запис, який спочатку опублікував пост, зробили приватним, призупинили або повністю видалили. Для решти постів обліковий запис, який опублікував пост, все ще був видимим на сайті, але окремий пост видалили.
Особливо ймовірно, що пости будуть видалені, якщо вони:
- Написані певними мовами. Майже половина всіх турецькомовних постів, які дослідники зібрали, і трохи менше арабською мовою були недоступні наприкінці періоду відстеження.
- Опубліковані обліковими записами, які використовують налаштування профілю сайту за замовчуванням. Більша частина постів з облікових записів, які використовують зображення профілю за замовчуванням, більше не були доступні наприкінці періоду відстеження.
- опубліковані неперевіреними обліковими записами.
Крім цього дослідники виявили, що видалені пости, як правило, надходять із нових облікових записів із порівняно невеликою кількістю підписників і малою активністю на сайті.
Як правило, пости зникають незабаром після публікації:
- 1 % постів видаляється протягом години;
- 3 % протягом доби;
- 10 % протягом тижня;
- 15 % протягом місяця.
Отже, половина постів, які згодом видаляються з платформи, стають недоступними протягом перших шести днів після публікації. І 90 % цих постів стають недоступними протягом 46 днів. Однак твіти не завжди зникають назавжди. Орієнтовно 6 % постів зникли, а потім знову стали доступними пізніше. Це може бути пов’язано з тим, що обліковий запис став приватним, а потім повернувся до загальнодоступного, або обліковий запис було призупинено, а потім відновлено.