ID работы: 14726136

Гарри Поттер и Анализ Данных

Статья
R
В процессе
35
автор
Пэйринг и персонажи:
Размер:
планируется Мини, написана 91 страница, 8 частей
Описание:
Посвящение:
Примечания:
Публикация на других ресурсах:
Уточнять у автора / переводчика
Поделиться:
Награды от читателей:
35 Нравится 71 Отзывы 8 В сборник Скачать

Вступление и предварительные оценки

Настройки текста
Примечания:
ОБЪЯВЛЕНИЕ ДЛЯ ТЕХ, КТО УЖЕ ЧИТАЛ Я обновил данные и добавил несколько признаков, к тому же сам датасет стал шире. Также поправил баг по определению "популярных" работ. В последующих частях [ДАННЫЕ ОБНОВЛЕНЫ], я кратко описал что поменялось. В целом, глобально выводы остались примерно теми же. Тут тоже обновил. Есть у меня такое хобби - чтение фанфиков по вселенной "Гарри Поттеру". Есть у меня и свои предпочтения среди разных там жанров, рейтингов и так далее. Я могу назвать несколько фанфиков, которые мне очень понравились и несколько, которые мне показались ужасными. Но мои вкусы весьма специфичны судить по себе о том, что нравится другим - не лучшая идея. В какой-то момент, как и многие читатели я решился написать свои фанфики. Перед тем, как начать основную часть статьи, позволю себе пожаловаться на жизнь - много лет назад я начал писать (и забросил) Макси "Гарри Поттер с бензопилой". Он во всём дурацкий, написан плохо, логики в нём мало, канон тогда я помнил не очень хорошо - тем не менее, он очень понравился людям. У каждой главы кучу меток "жду продолжения", большое количество лайков и комментариев, правда наград нет. Недавно я начал фанфик "Стихийное бедствие Гриффиндора" (пока он так называется), и он написан объективно лучше предыдущего (может быть он и ужасен, но в сравнении с тем он и правда лучше), я даже ради него перечитывал книги о ГП, продумал сюжет и всё такое, но обратной связи гораздо меньше, хотя у него есть уже одна награда (что совсем не плохо!). Почему так, я не знаю, но возможно, одна из причин - шапка фанфика, рейтинг, жанры и предупреждения. В общем, эта одна из причин, по которой я решился-таки проанализировать вкусы фэндома.

***

Чтобы понять, какие фанфики нравятся людям, я решил воспользоваться методами Анализа Данных. В отличии от литературной аналитики, этот метод беспристрастен. Суть его заключается в том, чтобы смотреть на разные признаки и смотреть на корелляции и соотношения друг с другом. Например, направленность фанфиков - Джен, Гет, Слэш и другие. Можно посчитать общее их количество, а также среднее количество лафков для каждого направления. Это довольно примитивный пример, но тоже важен для анализа. Что мы будем анализировать? Прежде всего скажу - что я не анализирую сам текст фанфика, и комментарии к нему. Возможно, когда-нибудь, так или иначе... Но пока точно нет. Обойдёмся тем, что есть в шапке фанфика - то есть, направленности, жанры и так далее. Для начала надо получить эти самые данные. Я обучался Data Science (который включает в себя как анализ данных, так и машинное обучение), так что с анализом проблем возникнуть не должно, а вот со сбором самих данных... Ну не умею я парсить данные, пришлось импровизировать. Написал кривой-косой-забагованный скрипт на Питоне, который считывал тектовую информацию со страниц этого сайта, а затем анализировал её и переводил в удобоваримый вид. Чтобы вы понимали - голый код страницы браузера - это жуткая мешанина всяких тэгов, стилей, слоёв и всего того, что нам нафиг не надо, извлечь из этого что-то хорошее - та ещё задача, но я справился. Я не знаю, сколько всего фанфиков по Гарри Поттеру написано, но наверно много. Если щёлкнуть на сайте по кнопке "Фанфики по фэндому Гарри Поттер", то выведет 1000 страниц, судя по всему это просто ограничение сайта. Но для анализа вовсе не обязательно иметь прямо все данные, можно рассматривать ограниченную выборку - общие тенденции сохранятся. В моём случае, у меня есть 18837 шапок фанфиков для анализа - очень даже неплохо, что-то сказать об общих тенденциях по такому объёму информации можно. Интересующие нас признаки Итак, расскажу о том, какие именно признаки я брал для анализа. Автора фанфика сразу отбрасываем - задача проанализировать сами работы, а не авторов. Отметки "Мне нравится" - это объективный показатель популярности фанфика. Если фик хорош - его будут лайкать, а если он никому не интересен... Награды - тоже целевой признак, но анализироваться будут, прежде всего лайки. Название и краткое содержание - скорее для самопроверки (что всё правильно загрузил) + возможно на будущее можно будет использовать для анализа. Например, семантический анализ, анализ длины текста или даже анализ с помощью нейронных сетей, но пока не используется. Фэндомы - понятное дело, что основной фэндом - Роулинг Джоан «Гарри Поттер», но люди часто пишут кроссоверы. Так что, это тоже имеет смысл анализиоровать. Статус и размер - тут понятно. Статус работы (в процессе, завершена, заморожена), планируемый размер (если в процессе) и написанное количество страниц и частей. Дата последнего обновления/завершения фанфика - ну тут понятно, думаю. Пэйринги и персонажи - тут, я думаю, тоже всё более чем понятно. Жанры и прочее - тут тоже понятно. Является ли работа переводом Является ли работа горячей - тут спорно. Горячие работы - это "внешний" способ продвижения, к тому же, насколько я знаю, на сайте этот статус временный. То есть, возможно не "горячая" работа была некоторое время назад "горячей". Скорее всего этот признак трогать не буду. Автор фанфика - скорее всего использоваться не будет из-за технических сложностей парсинга профиля автора. Технически всё выглядит не в точности как то, что я описал, но думаю, большинству читателей не интересны сухие технические подробности работы аналитика данных. Если кто-то из вас дочитал хотя бы до сюда, то вы уже молодцы, хотя старался вроде всё более или менее понятно описывать. Предварительные выводы В общем-то, я уже начал анализировать фэндом Гарри Поттера, и хочу поделиться тем, что уже успел сделать. Пока далеко не всё, что я планировал, но есть уже интересные вещи. Для того, чтобы оценить какие направления и так далее нравятся людям, важно ещё понять одну вещь - а именно разницу между среднем и медианой. Звучит страшно, на деле понять легко. Вот смотрите - представьте племя из 10 человек. Вождь племени сожрал 10 кусков мяса, а с другими вообще не поделился. Получается, что в среднем каждый съел по куску мяса. А вот если смотреть медиану - то получается, что мяса никому не досталось. Среднее - суммирует числа и делит сумму на количества чисел, а медиана выстраивает числа в порядке возрастания и выбирает среднее число (либо среднее между двумя соседними, если чисел чётное количество). То есть, если все фанфики в определённом направлении набирают, скажем, примерно по 100 лайков, но какой-то гений написал в этом направлении супер-популярный фанфик, набравший 100500 лайков, то среднее покажет большие результаты за счёт того гения, а медиана покажет то, сколько в этом направлении наберёт средний автор - то есть не гений, но и не совсем дурак. Надеюсь, более или менее понятно. Начнём с направленности - оказалось, что больше всего написано фанфиков с направленностью Гет, аж 45%. Чуть меньше Слэша - 25% и Джена - 21%. Всего остального по чуть-чуть. А вот нравится людям больше всего Слэш, на втором месте Джен и только на третьем Гет. Причём, это если смотреть по среднему количесву лайков на каждую направленность. А вот если смотреть на медиану, то становится совсем грустно - Слэш по-прежнему впереди планеты всей, а вот Гет и Джен съезжают ближе к концу (хуже приходится только Смешанным и Другим видам отношений). Мда уж... Ушёл писать фанфик про крепкую мужcкую дружбу Гарри и Драко. По статусу работ - в процессе чуть меньше чем завершённых, но разница не существенна. Замороженных работ только примерно 3%. По лайкам выходит на первом месте готовые, на втором процессники, и на третьем замороженные. Причём порядок сохраняется и для средних, и для медиан, только для средних выходит что разница между готовыми и процессниками небольшая (очевидно за счёт несколько супер-популярных процессников, о них напишу ниже), а с медианой - разница более существенна. Тут вывод - что народ более охотно лайкает готовые произведения, хотя, я думаю, тут ещё играет роль и прошедшее время. Возрастной рейтинг работы - когда я писал свой фанфик, то думал какой рейтинг ему поставить, даже совет спрашивал у людей. Дело в том, что там можно его и под R и под NC-17 подогнать, так как с одной стороны планируются мрачные моменты, с другой - общая направленность мягкая и довольно светлая. В конце концов решил поставить, всё же NC-17... И оказался прав. По общему количеству работ ситуация такая: NC-17 : 38%, R : 25%, PG-13 :23%, G :10% и наконец NC-21 всего лишь 4%. Очевидно, совсем уж жестить авторы не любят. А вот по уровню народной любви - порядок такой : NC-17, NC-21, R, PG-13, G. При том, и в среднем и в медиане ситуация одинакова. Тут можно сказать, народ любит пожёстче, но всё же не запредельно - NC-17 оказался самым популярным. По количеству страниц и частей - судить было очень сложно. График разброса (scatter) показывает какую-то мешанину. Но посчитав корелляцию - я получил небольшую положительную корелляцию (0.42 для страниц и 0.38 для количества частей). Если перевести на русский - это значит, что в целом чем длиннее произведение, тем больше лайков, но связь не такая уж сильная. Огромный талмуд вовсе не обязательно соберёт кучу лайков, а маленький миник может и выстрелить. Но в целом связь ожидаемая - чем больше страниц, тем дольше живёт фанфик. По поводу кроссоверов - анализировать каждую конкретную вселенную я посчитал бессмысленным. Есть большое количество вселенных, где количество фанфиков из всей выборки меньше 10. Этого явно мало для анализа. Вот какая тут примерно картина: ('Фантастические твари', 215), ('Hogwarts Legacy', 195), ('Мстители', 169), ('Майер Стефани «Сумерки»', 120), ('Naruto', 115), ('Сумерки. Сага', 112), ('Genshin Impact', 74), ('Железный человек', 63), ('Роулинг Джоан «Фантастические твари и где они обитают» («Фантастические звери и места их обитания»)', 63), ('Толкин Джон Р.Р. «Властелин колец»', 55), ('Сверхъестественное', 51), ('Bangtan Boys (BTS)', 51), ('Звездные Войны', 47), ('Bungou Stray Dogs', 46), ('Katekyo Hitman Reborn!', 42), ('Игра Престолов', 41), ('Stray Kids', 39), ('Сакавич Нора «Все ради игры»', 38)] На всякий случай поясняю - цифра после названия - это общее количество фанфиков по этой вселенной (фанфики из вселенных Роулинг Джоан «Гарри Поттер» и Гарри Поттер я не стал выводить). Понятно, что учитывается именно количество фанфиков с данной вселенной, КАЖДЫЙ фанфик относится ко вселенной Роулинг Джоан «Гарри Поттер» и большое количество фанфиков к Гарри Поттер (то есть фильму), но я стал считать их как одну "вселенную". На самом деле ещё полно вселенных, в которых написано гораздо меньше фанфиков (в кроссовере с Гарри Поттером, я не смотрел сколько самостоятельных фанфиков в данных вселенных). Но для анализа я решил использовать сам факт наличия кроссовера, то есть вселенных помимо Роулинг Джоан «Гарри Поттер» и Гарри Поттер, а также их количество. Пока проанализировал сам факт. Выяснилось, что кроссоверов только 13,85% с копейками, а остальное - это фанфики чисто по вселенной ГП. Но народ больше любит кроссоверы - как в среднем, так и в медиане. Жанры, пейринги и много чего ещё пока не анализировал, но в планах, естественно. Интересное На сладкое оставил парочку забавных топов. Самое большое количество частей: Добро? Зло? Или жизнь Великого Мага 476 В процессе Легенда заброшенной таверны 399 Завершён Диктатор 311 В процессе Гарри Поттер, Разум и Магия 293 В процессе Красное на чёрном, или мост в Терабитию 273 Завершён 476 части и ещё в процессе... Желаю автору удачи. По страницам: Игры в богов 4240 В процессе Молли навсегда 3617 В процессе Вперед в прошлое 2570 В процессе Die, Die My Darling 2437 В процессе Иное 2082 В процессе Да, все в процессе. Лев Николаевич Толстой нервно курит в сторонке. По лайкам: Целитель 19728.0 В процессе Джен Вперед в прошлое 18211.0 В процессе Слэш Рыцарь завесы. Часть вторая. Ковчег 10127.0 Завершён Джен Мой предатель 8567.0 Завершён Гет Мальчик, который приходит сюда плакать 8136.0 В процессе Слэш Наверно отсюда, при подсчёте средних Джен и получил больше очков, чем при подсчёте медианы. В науке анализа данных это называется "выбросы", то есть очень большие (и очень маленькие значения). Планы на будущее Понятно, что я только начал анализировать фэндом Гарри Поттера. Многое ещё не сделано. Что я планирую покачто? Разобраться с датами, жанрами, пейрингами, выделить самых популярных персонажей, самые популярные пары (в разных направлениях), самые популярные и, возможно, антипопулярные жанры. Также посмотреть на зависимость популярности от количество жанров и персонажей. Возможно, проанализировать тексты. Кластеризовать фанфики (грубо говоря, выделить несколько больших категорий). Попробую обучить модель машинного обучения и научить её предсказывать количество лайков по имеющимся данным. Возможно, у меня получится сделать обратное предсказание - грубо говоря, если модель будет точной - то попытаться предсказать идеальный фанфик.
Примечания:
Отношение автора к критике
Приветствую критику в любой форме, укажите все недостатки моих работ.
Права на все произведения, опубликованные на сайте, принадлежат авторам произведений. Администрация не несет ответственности за содержание работ.