Громадянська мережа «ОПОРА» поділилася кодом, за допомогою якого можна перевірити, наскільки схожими є повідомлення у різних Telegram-каналах чи Twitter-акаунтах.
Як працює код
Якщо вам здається, що повідомлення на одному каналі підозріло схоже на повідомлення з іншого каналу, то за допомогою коду можна перевірити, наскільки часто дублюються повідомлення цих каналів.
ОПОРА використовувала програму для пошуку однакових повідомлень із різних джерел (різні канали в Telegram). За допомогою скрипта ви можете відстежувати, як «співпрацюють» ці джерела та як вони наслідують одне одного. Зокрема програма:
- Завантажує текстові дані.
- Обчислює схожість між текстами повідомлень, використовуючи fuzz-модуль (інструмент нечіткого зіставлення рядків).
- Групує разом схожі повідомлення (необхідний відсоток «схожості» потрібно задати у коді).
- Фільтрує та видаляє дублікати та групи, які не потрібні для аналізу.
- Виводить інформацію про дублікати й канали, з яких вони надійшли.
Як використати код
Код доступний у середовищі Google Colab, який має додаткові інструкції з використання. Перед тим, як запускати код, необхідно встановити необхідні бібліотеки в середовище Google Colab і завантажити файл із даними.
Щоби скористатися кодом, потрібно скопіювати записник у робочий простір: «Файл» → «Зберегти копію на Диску».
ОПОРА зазначає: якщо потрібно імплементувати код під інші, але схожі задачі — про це можна написати на info@opora.org.ua.