ID работы: 14726136

Гарри Поттер и Анализ Данных

Статья
R
В процессе
35
автор
Пэйринг и персонажи:
Размер:
планируется Мини, написана 91 страница, 8 частей
Описание:
Посвящение:
Примечания:
Публикация на других ресурсах:
Уточнять у автора / переводчика
Поделиться:
Награды от читателей:
35 Нравится 71 Отзывы 8 В сборник Скачать

Гарри Поттер и популярность Локхарта || РАЗБИЕНИЕ ПО СУММЕ ЛАЙКОВ

Настройки текста
Благодаря пользователю Artemo я решился-таки сделать разбиение по иному принципу. Фактически, глава будет аналогично главе Гарри Поттер и орден терпения || ОСТАЛЬНЫЕ ПРИЗНАКИ (ПОДРОБНЫЙ АНАЛИЗ В ДИНАМИКЕ) но подход к разбиению будет иным. В прошлый раз я разбивал фанфики на равные кучки — в первой кучке самые непопулярные, во второй кучке чуть более популярные и так далее. Однако в этом разбиении была проблема — грубо говоря, на этом сайте большинство работ не особо популярные. Попробую провести аналогию. Вы стали директором Хогвартса и приказали всем домовым эльфам рассортировать все вещи в выручай-комнате по стоимости, а затем разбить на несколько равных кучек, так чтобы в первой кучке были самые дешёвые вещи, во второй чуть дороже и так далее. Проблема в том, что в первой кучке будут только обломки мебели, во второй… тоже, может из чуть более качественной древесины… И только в последних кучках будут хоть немного полезные вещи, но и они будут перемешаны с обломками мебели. Так что, в этот раз, я пошёл немного иным путём — а именно, разделил все фанфики на три части с одинаковой суммарной стоимостью. Т.е. в первой кучке будет очень большое количество фанфиков, которым ставили мало лайков, а в последней — гораздо меньше, но действительно популярных. Но общая «стоимость» этих кучек будет равна. Для чего это вообще нужно? Данный анализ лучше покажет тенденции именно популярных и непопулярных работ. То есть, в кучку с популярными работами попадут действительно популярные работы. И этот анализ лучше покажет связь признаков и популярности. С другой стороны - популярных работ будет сильно меньше, чем непопулярных, и потому анализ немного менее надёжен (чем меньше работ в "кучке", тем больше возможных флуктуаций). Кроме того, я потом ещё раз разделил первую кучку. Вот какие кучки у меня получились:

на промежутке между 0 и 17%: среднее равно 39.85 медиана равна 23 корелляция равна 1.00 (очень сильная) Промежуток: 0% — 17%, MIN лайков: 1.0, MAX лайков: 171.0, всего фанфиков: 14931, СУММА ЛАЙКОВ 595049.0 на промежутке между 17 и 33%: среднее равно 263.34 медиана равна 250 корелляция равна 1.00 (очень сильная) Промежуток: 17% — 33%, MIN лайков: 171.0, MAX лайков: 410.0, всего фанфиков: 2260, СУММА ЛАЙКОВ 595143.0 на промежутке между 33 и 67%: среднее равно 720.09 медиана равна 651 корелляция равна 1.00 (очень сильная) Промежуток: 33% — 67%, MIN лайков: 410.0, MAX лайков: 1371.0, всего фанфиков: 1653, СУММА ЛАЙКОВ 1190304.0 на промежутке между 67 и 100%: среднее равно 2630.89 медиана равна 2075 корелляция равна 1.00 (очень сильная) Промежуток: 67% — 100%, MIN лайков: 1371.0, MAX лайков: 19753.0, всего фанфиков: 453, СУММА ЛАЙКОВ 1191793.0

Первые две суммы лайков отличаются, так как я ещё раз разделил первую из трёх кучек. Проценты теперь означают не количество фанфиков. Количество процентов (разница между вторым и первым числом) означает «стоимость» всей кучки от «стоимости» всех фанфиков. Грубо говоря, кучки 0-50% и 50-100% будут иметь одинаковую общую стоимость, но в первую кучку войдёт куча «дешёвых» фанфиков, а во вторую самые популярные. Ну вы сами всё видите — выше указано количество фанфиков в каждой кучке, а так же их минимальная и максимальная «стоимость». Смотрим на разные признаки. Всё аналогично прошлой части с анализом, но с другим разбиением.

Награды

На всём датасете среднее равно 1.18 медиана равна 0, корреляция 0.56 (средняя) Значение признака reward: на промежутке между 0 и 17%: среднее равно 0.26 медиана равна 0 корелляция равна 0.26 (очень слабая) на промежутке между 17 и 33%: среднее равно 1.77 медиана равна 1 корелляция равна 0.12 (очень слабая) на промежутке между 33 и 67%: среднее равно 4.43 медиана равна 2 корелляция равна 0.18 (очень слабая) на промежутке между 67 и 100%: среднее равно 16.53 медиана равна 6 корелляция равна 0.52 (средняя)

Количество наград растёт с популярностью фанфика, корреляция более или менее значимая только для популярных работ.

Сколько лайков надо набрать, чтобы получить награду?

На всём датасете среднее равно 159.70 медиана равна 88, корреляция 0.38 (слабая) Значение признака lfr: на промежутке между 0 и 17%: среднее равно 43.10 медиана равна 36 корелляция равна 0.71 (высокая) на промежутке между 17 и 33%: среднее равно 110.94 медиана равна 107 корелляция равна 0.27 (очень слабая) на промежутке между 33 и 67%: среднее равно 217.14 медиана равна 160 корелляция равна 0.30 (очень слабая) на промежутке между 67 и 100%: среднее равно 376.81 медиана равна 254 корелляция равна 0.13 (очень слабая)

Мы видим, что чем популярней работа, тем сильнее меняется соотношений лайков и наград. Грубо говоря, у более популярных работ количество лайков на одну награду сильно больше, чем у непопулярных. При том корреляция везде очень слабая.

Длина описания

На всём датасете среднее равно 238.67 медиана равна 221, корреляция 0.09 (очень слабая) Значение признака len_descr: на промежутке между 0 и 17%: среднее равно 229.64 медиана равна 209 корелляция равна 0.11 (очень слабая) на промежутке между 17 и 33%: среднее равно 265.59 медиана равна 258 корелляция равна 0.03 (очень слабая) на промежутке между 33 и 67%: среднее равно 268.67 медиана равна 258 корелляция равна 0.03 (очень слабая) на промежутке между 67 и 100%: среднее равно 292.06 медиана равна 291 корелляция равна 0.04 (очень слабая)

Мы видим, что она растёт, но в целом этот признак слабо связан с популярностью.

Длина названия:

На всём датасете среднее равно 20.71 медиана равна 18, корреляция 0.00 (очень слабая) Значение признака len_name: на промежутке между 0 и 17%: среднее равно 20.67 медиана равна 18 корелляция равна 0.01 (очень слабая) на промежутке между 17 и 33%: среднее равно 20.75 медиана равна 18 корелляция равна -0.00 (очень слабая) на промежутке между 33 и 67%: среднее равно 20.95 медиана равна 18 корелляция равна 0.01 (очень слабая) на промежутке между 67 и 100%: среднее равно 20.78 медиана равна 18 корелляция равна -0.03 (очень слабая)

Здесь связь практически никакая. Что любопытно, в части где я предпринимал первые попытки обучить модели предсказывать количество фанфиков, этот признак был пусть и не самым, но всё же значимым. Такое возможно, так как наш анализ смотрит только на линейные соотношения, а модель может учитывать нелинейность. Если совсем просто: возьмём функцию y = x^2 (икс квадрат). Очевидно, что игрек и икс очень тесно связаны между собой, но корреляция у них будет нулевая.

Размер фанфика (количество страниц)

На всём датасете среднее равно 63.81 медиана равна 15, корреляция 0.42 (слабая) Значение признака size1: на промежутке между 0 и 17%: среднее равно 35.45 медиана равна 10 корелляция равна 0.28 (очень слабая) на промежутке между 17 и 33%: среднее равно 112.52 медиана равна 48 корелляция равна 0.10 (очень слабая) на промежутке между 33 и 67%: среднее равно 179.17 медиана равна 78 корелляция равна 0.07 (очень слабая) на промежутке между 67 и 100%: среднее равно 334.33 медиана равна 189 корелляция равна 0.38 (слабая)

Количество страниц растёт с популярностью фанфика, как и раньше. Ну тут есть объяснения — в комментах мне подсказали, что авторы, которых не лайкают, часто бросают работу. Да и в целом — совсем уж графоману будет тяжело настрочить работу на 1000 страниц (ваш покорный слуга — исключение).

Количество частей

На всём датасете среднее равно 8.59 медиана равна 3, корреляция 0.38 (слабая) Значение признака size2: на промежутке между 0 и 17%: среднее равно 5.66 медиана равна 2 корелляция равна 0.25 (очень слабая) на промежутке между 17 и 33%: среднее равно 13.97 медиана равна 8 корелляция равна 0.05 (очень слабая) на промежутке между 33 и 67%: среднее равно 20.13 медиана равна 11 корелляция равна 0.07 (очень слабая) на промежутке между 67 и 100%: среднее равно 36.29 медиана равна 25 корелляция равна 0.31 (слабая)

Как и в прошлом анализе, количество частей растёт.

Длина части

На всём датасете среднее равно 6.61 медиана равна 5, корреляция 0.16 (очень слабая) Значение признака pages_per_part: на промежутке между 0 и 17%: среднее равно 5.84 медиана равна 4 корелляция равна 0.26 (очень слабая) на промежутке между 17 и 33%: среднее равно 8.67 медиана равна 7 корелляция равна 0.04 (очень слабая) на промежутке между 33 и 67%: среднее равно 9.92 медиана равна 8 корелляция равна 0.02 (очень слабая) на промежутке между 67 и 100%: среднее равно 9.87 медиана равна 8 корелляция равна 0.04 (очень слабая)

Мы видим, что длина части растёт, но у самых популярных работ она немного уменьшается, в предыдущем анализе она везде росла.

Количество лайков за страницу

На всём датасете среднее равно 10.11 медиана равна 2, корреляция 0.28 (очень слабая) Значение признака p: на промежутке между 0 и 17%: среднее равно 4.78 медиана равна 2 корелляция равна 0.37 (слабая) на промежутке между 17 и 33%: среднее равно 16.68 медиана равна 5 корелляция равна 0.08 (очень слабая) на промежутке между 33 и 67%: среднее равно 33.89 медиана равна 9 корелляция равна 0.13 (очень слабая) на промежутке между 67 и 100%: среднее равно 66.62 медиана равна 12 корелляция равна -0.02 (очень слабая)

Тут мы как и в предыдущем анализе наблюдаем, что у популярных работ ставят больше лайков за страницу (то есть, выше показатель числа лайков делённого на число страниц). Моя гипотеза в том, что отчасти влияют популярные мини — так как если работа из 5 страниц будет иметь 5000 лайков, то это может сильно повлиять на данную статистику; ну также важно и то, что популярные работы в целом чаще лайкают.

***

Количество указанных жанров

На всём датасете среднее равно 11.12 медиана равна 9, корреляция 0.12 (очень слабая) Значение признака genres_count: на промежутке между 0 и 17%: среднее равно 10.38 медиана равна 8 корелляция равна 0.10 (очень слабая) на промежутке между 17 и 33%: среднее равно 13.13 медиана равна 11 корелляция равна 0.01 (очень слабая) на промежутке между 33 и 67%: среднее равно 13.91 медиана равна 12 корелляция равна -0.01 (очень слабая) на промежутке между 67 и 100%: среднее равно 15.58 медиана равна 13 корелляция равна 0.04 (очень слабая)

Мы видим, что у популярных работ количество жанров повышается.

Количество указанных персонажей

На всём датасете среднее равно 5.55 медиана равна 4, корреляция 0.03 (очень слабая) Значение признака characters_count: на промежутке между 0 и 17%: среднее равно 5.43 медиана равна 4 корелляция равна 0.04 (очень слабая) на промежутке между 17 и 33%: среднее равно 5.96 медиана равна 4 корелляция равна 0.01 (очень слабая) на промежутке между 33 и 67%: среднее равно 5.86 медиана равна 4 корелляция равна -0.05 (очень слабая) на промежутке между 67 и 100%: среднее равно 6.37 медиана равна 4 корелляция равна 0.02 (очень слабая)

Количество указанных персонажей довольно слабо связано с популярностью, медиана везде одинаковая, среднее отличается незначительно. В целом, данный анализ говорит, что это неважный признак.

Количество указанных пейрингов

На всём датасете среднее равно 1.76 медиана равна 1, корреляция 0.02 (очень слабая) Значение признака pairings_count: на промежутке между 0 и 17%: среднее равно 1.73 медиана равна 1 корелляция равна 0.04 (очень слабая) на промежутке между 17 и 33%: среднее равно 1.86 медиана равна 1 корелляция равна 0.01 (очень слабая) на промежутке между 33 и 67%: среднее равно 1.85 медиана равна 1 корелляция равна -0.03 (очень слабая) на промежутке между 67 и 100%: среднее равно 1.86 медиана равна 1 корелляция равна -0.01 (очень слабая)

Тут вообще не наблюдается какой-либо взаимосвязи.

***

Теперь глянем на количество дней, которое прошло с последнего обновления работы. Учтём, что в датасете работы всё те же, что и были при начале написания статьи. Мы отдельно рассмотрим для завершённых и процессников. Завершённые:

Значение признака days: на промежутке между 0 и 17%: среднее равно 202.63 медиана равна 196 корелляция равна 0.06 (очень слабая) на промежутке между 17 и 33%: среднее равно 224.88 медиана равна 222 корелляция равна 0.06 (очень слабая) на промежутке между 33 и 67%: среднее равно 228.88 медиана равна 234 корелляция равна 0.01 (очень слабая) на промежутке между 67 и 100%: среднее равно 227.36 медиана равна 227 корелляция равна 0.04 (очень слабая)

В целом в выборке относительно большое количество старых работ (но незначительно старше года). В целом, то, что в последней кучки работы чуть моложе, чем в предыдущей может говорить о том, интерес к фандому не гаснет и люди иногда пишут популярные работы. В процессе:

Значение признака days: на промежутке между 0 и 17%: среднее равно 166.16 медиана равна 141 корелляция равна -0.06 (очень слабая) на промежутке между 17 и 33%: среднее равно 150.59 медиана равна 120 корелляция равна 0.03 (очень слабая) на промежутке между 33 и 67%: среднее равно 144.10 медиана равна 113 корелляция равна -0.04 (очень слабая) на промежутке между 67 и 100%: среднее равно 136.88 медиана равна 99 корелляция равна 0.07 (очень слабая)

Ну тут как и ожидалось, количество дней уменьшается с ростом популярности.

***

Бинарные категориальные признаки

Рассмотрим теперь бинарные категориальные признаки, то есть те которые могут иметь значение ДА или НЕТ. Как читать все эти записи уже указано в прошлом анализе, так что повторяться не буду. Является ли работа переводом?

на промежутке между 0 и 17%: равен 7,48%, имеет среднее 62.97 лайков для 1 и 37.98 для 0, имеет медиану 52 лайков для 1 и 21 для 0, количество работ с меткой 1 = 1117 mean_diff = 24.99 median_diff = 31 на промежутке между 17 и 33%: равен 17,08%, имеет среднее 262.71 лайков для 1 и 263.47 для 0, имеет медиану 247 лайков для 1 и 250 для 0, количество работ с меткой 1 = 386 mean_diff = -0.76 median_diff = -3 на промежутке между 33 и 67%: равен 15,91%, имеет среднее 718.79 лайков для 1 и 720.33 для 0, имеет медиану 648 лайков для 1 и 651 для 0, количество работ с меткой 1 = 263 mean_diff = -1.55 median_diff = -3 на промежутке между 67 и 100%: равен 14,57%, имеет среднее 2503.35 лайков для 1 и 2652.64 для 0, имеет медиану 1948 лайков для 1 и 2092 для 0, количество работ с меткой 1 = 66 mean_diff = -149.29 median_diff = -144

Мы видим, что для самых непопулярных работ переводы популярней других работ, но в остальном переводы менее популярные чем оригинальные фанфики. Является ли работа кроссовером?

на промежутке между 0 и 17%: равен 13,69%, имеет среднее 42.38 лайков для 1 и 39.45 для 0, имеет медиану 28 лайков для 1 и 22 для 0, количество работ с меткой 1 = 2044 mean_diff = 2.92 median_diff = 6 на промежутке между 17 и 33%: равен 14,42%, имеет среднее 262.26 лайков для 1 и 263.52 для 0, имеет медиану 252 лайков для 1 и 249 для 0, количество работ с меткой 1 = 326 mean_diff = -1.26 median_diff = 4 на промежутке между 33 и 67%: равен 15,91%, имеет среднее 732.50 лайков для 1 и 717.74 для 0, имеет медиану 684 лайков для 1 и 647 для 0, количество работ с меткой 1 = 263 mean_diff = 14.76 median_diff = 37 на промежутке между 67 и 100%: равен 20,09%, имеет среднее 2511.60 лайков для 1 и 2660.88 для 0, имеет медиану 2212 лайков для 1 и 2038 для 0, количество работ с меткой 1 = 91 mean_diff = -149.27 median_diff = 174

Тут мы видим, что в более популярных работах больше распространены кроссоверы (среди непопулярных всего 13% работ являются кроссоверами, а среди популярных — 20%). Притом на медиану кроссоверы везде влияют хорошо, а вот по среднему кроссоверы менее популярны среди самых популярных работ. Наверно сказывается несколько ТОП-овых именно русских работ. Горячая работа

на промежутке между 0 и 17%: равен 6,03%, имеет среднее 51.98 лайков для 1 и 39.08 для 0, имеет медиану 39 лайков для 1 и 22 для 0, количество работ с меткой 1 = 900 mean_diff = 12.91 median_diff = 17 на промежутке между 17 и 33%: равен 8,63%, имеет среднее 257.50 лайков для 1 и 263.89 для 0, имеет медиану 247 лайков для 1 и 250 для 0, количество работ с меткой 1 = 195 mean_diff = -6.39 median_diff = -3 на промежутке между 33 и 67%: равен 9,62%, имеет среднее 706.29 лайков для 1 и 721.56 для 0, имеет медиану 643 лайков для 1 и 651 для 0, количество работ с меткой 1 = 159 mean_diff = -15.27 median_diff = -8 на промежутке между 67 и 100%: равен 8,39%, имеет среднее 2748.05 лайков для 1 и 2620.16 для 0, имеет медиану 2357 лайков для 1 и 2046 для 0, количество работ с меткой 1 = 38 mean_diff = 127.89 median_diff = 311

Процент горячих работ распространён более или менее равномерно, хотя среди непопулярных их всё же меньше. При том для средних работ более популярны те, что не горячие, но для ТОПовых популярнее горячие. Возможно именно эта функция сайта пропихивает «средние» работы в ТОП?

***

Теперь рассмотрим категориальные признаки с несколькими категориями. То есть, например, статус работы (В процессе, завершён и заморожен) — тут три категории. Мы будем рассматривать каждую категорию в отдельности, как если бы она была бинарной категорией. То есть является ли работа завершённой или нет? Только важно понимать, что в рамках одного признака категории не могут пересекаться (т.е. работа не может быть одновременно завершённой и в процессе).

СТАТУС РАБОТЫ

В процессе

на промежутке между 0 и 17%: равен 49,36%, имеет среднее 34.87 лайков для 1 и 44.71 для 0, имеет медиану 18 лайков для 1 и 29 для 0, количество работ с меткой 1 = 7370 mean_diff = -9.85 median_diff = -11 на промежутке между 17 и 33%: равен 42,43%, имеет среднее 263.82 лайков для 1 и 262.98 для 0, имеет медиану 251 лайков для 1 и 249 для 0, количество работ с меткой 1 = 959 mean_diff = 0.84 median_diff = 2 на промежутке между 33 и 67%: равен 39,32%, имеет среднее 710.32 лайков для 1 и 726.42 для 0, имеет медиану 635 лайков для 1 и 665 для 0, количество работ с меткой 1 = 650 mean_diff = -16.10 median_diff = -30 на промежутке между 67 и 100%: равен 48,34%, имеет среднее 2831.11 лайков для 1 и 2443.51 для 0, имеет медиану 2249 лайков для 1 и 1960 для 0, количество работ с меткой 1 = 219 mean_diff = 387.60 median_diff = 290

Как ни странно, среди самых популярных работ — статус «в процессе» влияет положительно. Медиана и среднее процессников выше чем остальных работ. Притом везде количество процессников чуть меньше половины. Завершён

на промежутке между 0 и 17%: равен 47,40%, имеет среднее 45.88 лайков для 1 и 34.42 для 0, имеет медиану 30 лайков для 1 и 17 для 0, количество работ с меткой 1 = 7077 mean_diff = 11.46 median_diff = 13 на промежутке между 17 и 33%: равен 55,58%, имеет среднее 263.57 лайков для 1 и 263.05 для 0, имеет медиану 249 лайков для 1 и 250 для 0, количество работ с меткой 1 = 1256 mean_diff = 0.52 median_diff = -1 на промежутке между 33 и 67%: равен 59,17%, имеет среднее 728.06 лайков для 1 и 708.53 для 0, имеет медиану 665 лайков для 1 и 630 для 0, количество работ с меткой 1 = 978 mean_diff = 19.53 median_diff = 35 на промежутке между 67 и 100%: равен 50,77%, имеет среднее 2457.63 лайков для 1 и 2809.59 для 0, имеет медиану 1963 лайков для 1 и 2229 для 0, количество работ с меткой 1 = 230 mean_diff = -351.96 median_diff = -266

Как ни странно, среди самых популярных завершённые работы меньше ценятся (правда в выборку не попали некоторые монстры вроде «Платина и шоколад», так как в неё попали относительно свежие работы). Заморожен

на промежутке между 0 и 17%: равен 3,24%, имеет среднее 27.68 лайков для 1 и 40.26 для 0, имеет медиану 13 лайков для 1 и 23 для 0, количество работ с меткой 1 = 484 mean_diff = -12.58 median_diff = -10 на промежутке между 17 и 33%: равен 1,99%, имеет среднее 246.56 лайков для 1 и 263.68 для 0, имеет медиану 226 лайков для 1 и 250 для 0, количество работ с меткой 1 = 45 mean_diff = -17.12 median_diff = -24 на промежутке между 33 и 67%: равен 1,51%, имеет среднее 662.08 лайков для 1 и 720.98 для 0, имеет медиану 578 лайков для 1 и 652 для 0, количество работ с меткой 1 = 25 mean_diff = -58.90 median_diff = -74 на промежутке между 67 и 100%: равен 0,88%, имеет среднее 1631.50 лайков для 1 и 2639.79 для 0, имеет медиану 1526 лайков для 1 и 2084 для 0, количество работ с меткой 1 = 4 mean_diff = -1008.29 median_diff = -558

Тут, как и ожидалось — замороженные работы любят меньше других.

ВИДЫ ОТНОШЕНИЙ

Слэш

Процент работ, чей признак orientation_Слэш истинный: на промежутке между 0 и 17%: равен 22,58%, имеет среднее 52.65 лайков для 1 и 36.12 для 0, имеет медиану 38 лайков для 1 и 20 для 0, количество работ с меткой 1 = 3372 mean_diff = 16.53 median_diff = 18 на промежутке между 17 и 33%: равен 34,96%, имеет среднее 262.63 лайков для 1 и 263.72 для 0, имеет медиану 249 лайков для 1 и 250 для 0, количество работ с меткой 1 = 790 mean_diff = -1.09 median_diff = -1 на промежутке между 33 и 67%: равен 34,42%, имеет среднее 698.61 лайков для 1 и 731.36 для 0, имеет медиану 627 лайков для 1 и 666 для 0, количество работ с меткой 1 = 569 mean_diff = -32.75 median_diff = -39 на промежутке между 67 и 100%: равен 28,70%, имеет среднее 2635.29 лайков для 1 и 2629.12 для 0, имеет медиану 2004 лайков для 1 и 2098 для 0, количество работ с меткой 1 = 130 mean_diff = 6.17 median_diff = -94

Можем наблюдать, что в целом слэш не является супер-популярным. Он популярней среди непопулярных работ, но в остальном он менее популярен, чем другие виды отношений. Во всех категориях работ Слэша 20-30 процентов, в целом чуть меньше трети всех работ. Гет

Процент работ, чей признак orientation_Гет истинный: на промежутке между 0 и 17%: равен 46,57%, имеет среднее 39.68 лайков для 1 и 40.01 для 0, имеет медиану 23 лайков для 1 и 23 для 0, количество работ с меткой 1 = 6953 mean_diff = -0.33 median_diff = 0 на промежутке между 17 и 33%: равен 42,08%, имеет среднее 260.17 лайков для 1 и 265.64 для 0, имеет медиану 244 лайков для 1 и 253 для 0, количество работ с меткой 1 = 951 mean_diff = -5.46 median_diff = -9 на промежутке между 33 и 67%: равен 39,99%, имеет среднее 723.54 лайков для 1 и 717.79 для 0, имеет медиану 663 лайков для 1 и 648 для 0, количество работ с меткой 1 = 661 mean_diff = 5.75 median_diff = 14 на промежутке между 67 и 100%: равен 34,88%, имеет среднее 2522.11 лайков для 1 и 2689.15 для 0, имеет медиану 2120 лайков для 1 и 2036 для 0, количество работ с меткой 1 = 158 mean_diff = -167.04 median_diff = 84

Тут мы видим, что для первой трети работ гет менее популярен, чем другие, в средней и самой популярной третях — гет оказывает хорошее влияние на медиану, однако среди самых популярных гет убавляет среднее — очевидно, популярнейшие из работ попавших в выборку имеют другие метки. Всего гета чуть больше трети Джен

Процент работ, чей признак orientation_Джен истинный: на промежутке между 0 и 17%: равен 22,07%, имеет среднее 30.03 лайков для 1 и 42.63 для 0, имеет медиану 14 лайков для 1 и 27 для 0, количество работ с меткой 1 = 3295 mean_diff = -12.60 median_diff = -13 на промежутке между 17 и 33%: равен 16,73%, имеет среднее 272.50 лайков для 1 и 261.50 для 0, имеет медиану 263 лайков для 1 и 247 для 0, количество работ с меткой 1 = 378 mean_diff = 11.00 median_diff = 16 на промежутке между 33 и 67%: равен 21,48%, имеет среднее 754.85 лайков для 1 и 710.58 для 0, имеет медиану 683 лайков для 1 и 644 для 0, количество работ с меткой 1 = 355 mean_diff = 44.27 median_diff = 39 на промежутке между 67 и 100%: равен 34,00%, имеет среднее 2791.20 лайков для 1 и 2548.32 для 0, имеет медиану 2118 лайков для 1 и 2025 для 0, количество работ с меткой 1 = 154 mean_diff = 242.88 median_diff = 92

Джена на фикбуке также довольно много. Во всех категориях работ, кроме самых непопулярных, Джен хорошо влияет на популярность. Других меток очень мало, особенно в популярных работах и анализировать их бессмысленно. Любопытно, что в самых популярных нет ни одной статьи.

***

РЕЙТИНГ РАБОТЫ

Пойдём по порядку. То есть, G, PG-13, R, NC-17, NC-21 G — работы для всех.

Процент работ, чей признак rating_G истинный: на промежутке между 0 и 17%: равен 11,31%, имеет среднее 26.07 лайков для 1 и 41.61 для 0, имеет медиану 13 лайков для 1 и 25 для 0, количество работ с меткой 1 = 1688 mean_diff = -15.54 median_diff = -12 на промежутке между 17 и 33%: равен 4,51%, имеет среднее 254.38 лайков для 1 и 263.76 для 0, имеет медиану 228 лайков для 1 и 250 для 0, количество работ с меткой 1 = 102 mean_diff = -9.38 median_diff = -22 на промежутке между 33 и 67%: равен 4,17%, имеет среднее 715.43 лайков для 1 и 720.29 для 0, имеет медиану 632 лайков для 1 и 652 для 0, количество работ с меткой 1 = 69 mean_diff = -4.85 median_diff = -20 на промежутке между 67 и 100%: равен 5,96%, имеет среднее 2413.41 лайков для 1 и 2644.67 для 0, имеет медиану 1970 лайков для 1 и 2085 для 0, количество работ с меткой 1 = 27 mean_diff = -231.27 median_diff = -115

Мы видим, что в целом этот рейтинг непопулярен. Популярных работ с рейтингом G всего 27. PG-13 незначительные ограничения, типа никакой жести и пошлятины, но всё же не совсем «детские» темы в ней

Процент работ, чей признак rating_PG_13 истинный: на промежутке между 0 и 17 % : равен 25.07%, имеет среднее 37.87 лайков для 1 и 40.52 для 0, имеет медиану 22 лайков для 1 и 23 для 0, количество работ с меткой 1 = 3743 mean_diff = -2.65 median_diff = -1 на промежутке между 17 и 33 % : равен 15.88%, имеет среднее 262.72 лайков для 1 и 263.46 для 0, имеет медиану 249 лайков для 1 и 250 для 0, количество работ с меткой 1 = 359 mean_diff = -0.74 median_diff = -1 на промежутке между 33 и 67 % : равен 14.04%, имеет среднее 736.25 лайков для 1 и 717.45 для 0, имеет медиану 660 лайков для 1 и 650 для 0, количество работ с меткой 1 = 232 mean_diff = 18.81 median_diff = 10 на промежутке между 67 и 100 % : равен 13.91%, имеет среднее 2481.32 лайков для 1 и 2655.05 для 0, имеет медиану 1970 лайков для 1 и 2089 для 0, количество работ с меткой 1 = 63 mean_diff = -173.73 median_diff = -119

Таких работ уже чуть больше среди популярных. При том, сам рейтинг не особо популярен, но среди средней трети работ влияет на популярность даже положительно. R без подробностей, но есть упоминания всякой жести и пошлятины, рейтинг этой статьи как раз

на промежутке между 0 и 17 % : равен 25.66%, имеет среднее 39.64 лайков для 1 и 39.93 для 0, имеет медиану 23 лайков для 1 и 23 для 0, количество работ с меткой 1 = 3832 mean_diff = -0.29 median_diff = 0 на промежутке между 17 и 33 % : равен 25.35%, имеет среднее 262.89 лайков для 1 и 263.49 для 0, имеет медиану 250 лайков для 1 и 249 для 0, количество работ с меткой 1 = 573 mean_diff = -0.60 median_diff = 1 на промежутке между 33 и 67 % : равен 23.35%, имеет среднее 722.36 лайков для 1 и 719.39 для 0, имеет медиану 653 лайков для 1 и 650 для 0, количество работ с меткой 1 = 386 mean_diff = 2.97 median_diff = 3 на промежутке между 67 и 100 % : равен 20.31%, имеет среднее 2682.37 лайков для 1 и 2617.77 для 0, имеет медиану 2256 лайков для 1 и 2023 для 0, количество работ с меткой 1 = 92 mean_diff = 64.60 median_diff = 232

Таких работ уже больше среди популярных. Сам рейтинг также более любим народом. NC-17 можно писать о чём угодно, но всё же с некоторыми тормозами

на промежутке между 0 и 17 % : равен 34.22%, имеет среднее 46.35 лайков для 1 и 36.48 для 0, имеет медиану 30 лайков для 1 и 20 для 0, количество работ с меткой 1 = 5110 mean_diff = 9.87 median_diff = 10 на промежутке между 17 и 33 % : равен 50.18%, имеет среднее 265.17 лайков для 1 и 261.49 для 0, имеет медиану 254 лайков для 1 и 246 для 0, количество работ с меткой 1 = 1134 mean_diff = 3.68 median_diff = 8 на промежутке между 33 и 67 % : равен 55.11%, имеет среднее 714.38 лайков для 1 и 727.10 для 0, имеет медиану 649 лайков для 1 и 653 для 0, количество работ с меткой 1 = 911 mean_diff = -12.72 median_diff = -4 на промежутке между 67 и 100 % : равен 54.30%, имеет среднее 2698.56 лайков для 1 и 2550.47 для 0, имеет медиану 2079 лайков для 1 и 2075 для 0, количество работ с меткой 1 = 246 mean_diff = 148.09 median_diff = 4

Таких работ больше всего на фикбуке. При том, их меньше только среди непопулярных. Как ни странно, чуть отрицательно влияет на популярность среди среднепопулярных работ, в остальном любим народом. NC_21 — кровь, кишки, и всё такое, короче ИСТИННЫЙ рейтинг этой статьи

на промежутке между 0 и 17 % : равен 3.74%, имеет среднее 36.89 лайков для 1 и 39.97 для 0, имеет медиану 20 лайков для 1 и 23 для 0, количество работ с меткой 1 = 558 mean_diff = -3.08 median_diff = -3 на промежутке между 17 и 33 % : равен 4.07%, имеет среднее 255.91 лайков для 1 и 263.65 для 0, имеет медиану 238 лайков для 1 и 250 для 0, количество работ с меткой 1 = 92 mean_diff = -7.74 median_diff = -12 на промежутке между 33 и 67 % : равен 3.33%, имеет среднее 736.36 лайков для 1 и 719.53 для 0, имеет медиану 683 лайков для 1 и 650 для 0, количество работ с меткой 1 = 55 mean_diff = 16.84 median_diff = 33 на промежутке между 67 и 100 % : равен 5.52%, имеет среднее 2387.36 лайков для 1 и 2645.11 для 0, имеет медиану 2025 лайков для 1 и 2080 для 0, количество работ с меткой 1 = 25 mean_diff = -257.75 median_diff = -54

Самый редкий рейтинг. При том для средне-популярных работ (вторая треть) он влияет хорошо, но в остальном - не очень. Очевидно, народ не любит совсем уж жесть.

***

ПЛАНИРУЕМЫЙ РАЗМЕР ДЛЯ РАБОТ В ПРОЦЕССЕ

Сразу поясню - имеются в виду именно работы в процессе, в которых указана мол "планируется Макси" и т.п. МАКСИ

Процент работ, чей признак size3_Макси истинный: на промежутке между 0 и 17 % : равен 44.25%, имеет среднее 22.93 лайков для 1 и 16.98 для 0, имеет медиану 17 лайков для 1 и 10 для 0, количество работ с меткой 1 = 2730 mean_diff = 5.95 median_diff = 7 на промежутке между 17 и 33 % : равен 65.33%, имеет среднее 106.51 лайков для 1 и 104.52 для 0, имеет медиану 104 лайков для 1 и 101 для 0, количество работ с меткой 1 = 682 mean_diff = 1.98 median_diff = 3 на промежутке между 33 и 67 % : равен 70.15%, имеет среднее 231.69 лайков для 1 и 227.62 для 0, имеет медиану 222 лайков для 1 и 215 для 0, количество работ с меткой 1 = 684 mean_diff = 4.08 median_diff = 7 на промежутке между 67 и 100 % : равен 78.60%, имеет среднее 468.80 лайков для 1 и 469.80 для 0, имеет медиану 455 лайков для 1 и 468 для 0, количество работ с меткой 1 = 371 mean_diff = -1.00 median_diff = -13

Среди более или менее популярных работ самый распространённый планируемый размер. На популярность влияет слабо, но среди популярных совсем немного в минус. Миди

Процент работ, чей признак size3_Миди истинный: на промежутке между 0 и 17 % : равен 39.83%, имеет среднее 18.09 лайков для 1 и 20.62 для 0, имеет медиану 11 лайков для 1 и 14 для 0, количество работ с меткой 1 = 2457 mean_diff = -2.52 median_diff = -3 на промежутке между 17 и 33 % : равен 28.16%, имеет среднее 102.55 лайков для 1 и 107.10 для 0, имеет медиану 98 лайков для 1 и 105 для 0, количество работ с меткой 1 = 294 mean_diff = -4.55 median_diff = -6 на промежутке между 33 и 67 % : равен 26.56%, имеет среднее 229.81 лайков для 1 и 230.72 для 0, имеет медиану 216 лайков для 1 и 221 для 0, количество работ с меткой 1 = 259 mean_diff = -0.91 median_diff = -5 на промежутке между 67 и 100 % : равен 17.58%, имеет среднее 465.78 лайков для 1 и 469.70 для 0, имеет медиану 461 лайков для 1 и 457 для 0, количество работ с меткой 1 = 83 mean_diff = -3.92 median_diff = 4

Таких работ меньше. Мини

Процент работ, чей признак size3_Мини истинный: на промежутке между 0 и 17 % : равен 15.92%, имеет среднее 14.18 лайков для 1 и 20.64 для 0, имеет медиану 8 лайков для 1 и 13 для 0, количество работ с меткой 1 = 982 mean_diff = -6.46 median_diff = -5 на промежутке между 17 и 33 % : равен 6.51%, имеет среднее 113.06 лайков для 1 и 105.32 для 0, имеет медиану 116 лайков для 1 и 102 для 0, количество работ с меткой 1 = 68 mean_diff = 7.74 median_diff = 14 на промежутке между 33 и 67 % : равен 3.28%, имеет среднее 209.84 лайков для 1 и 231.18 для 0, имеет медиану 186 лайков для 1 и 222 для 0, количество работ с меткой 1 = 32 mean_diff = -21.33 median_diff = -36 на промежутке между 67 и 100 % : равен 3.81%, имеет среднее 488.33 лайков для 1 и 468.25 для 0, имеет медиану 482 лайков для 1 и 456 для 0, количество работ с меткой 1 = 18 mean_diff = 20.09 median_diff = 27

Таких работ в целом очень мало, что и не удивительно - всё же мини легко дописать, и он скорее будет в завершённых чем в процессниках.

РАЗМЕР ЗАВЕРШЁННЫХ РАБОТ

На фикбуке нет официальных размеров, но есть выбор количества страниц при поиске работы. На него я и ориентировался. Рассматриваются ТОЛЬКО завершённые, не замороженные и не в процессе. Итак, размеры для завершённых работ: Гигант, если страниц строго больше 300 (решил для интереса сделать) Макси, если страниц строго больше 70 Миди, если страниц строго больше 20 и не больше 70 Мини, если страниц строго больше 3 и не больше 20 Драббл, если страниц от 1 до 3 включительно Драббл

Процент работ, чей признак size4_Драббл истинный: на промежутке между 0 и 17 % : равен 37.12%, имеет среднее 20.71 лайков для 1 и 33.69 для 0, имеет медиану 13 лайков для 1 и 28 для 0, количество работ с меткой 1 = 2160 mean_diff = -12.99 median_diff = -15 на промежутке между 17 и 33 % : равен 11.20%, имеет среднее 124.56 лайков для 1 и 131.35 для 0, имеет медиану 119 лайков для 1 и 128 для 0, количество работ с меткой 1 = 159 mean_diff = -6.79 median_diff = -9 на промежутке между 33 и 67 % : равен 7.86%, имеет среднее 273.73 лайков для 1 и 293.99 для 0, имеет медиану 248 лайков для 1 и 280 для 0, количество работ с меткой 1 = 96 mean_diff = -20.26 median_diff = -32 на промежутке между 67 и 100 % : равен 3.84%, имеет среднее 657.26 лайков для 1 и 637.76 для 0, имеет медиану 655 лайков для 1 и 624 для 0, количество работ с меткой 1 = 23 mean_diff = 19.50 median_diff = 31

Среди популярных очень мало драбблов, в целом их количество падает с ростом популярности. При том, именно среди самых популярных они вполне популярные. Мини

Процент работ, чей признак size4_Мини истинный: на промежутке между 0 и 17 % : равен 47.33%, имеет среднее 31.90 лайков для 1 и 26.16 для 0, имеет медиану 26 лайков для 1 и 18 для 0, количество работ с меткой 1 = 2754 mean_diff = 5.74 median_diff = 8 на промежутке между 17 и 33 % : равен 52.46%, имеет среднее 130.63 лайков для 1 и 130.54 для 0, имеет медиану 127 лайков для 1 и 127 для 0, количество работ с меткой 1 = 745 mean_diff = 0.09 median_diff = 0 на промежутке между 33 и 67 % : равен 43.13%, имеет среднее 287.35 лайков для 1 и 296.22 для 0, имеет медиану 269 лайков для 1 и 286 для 0, количество работ с меткой 1 = 527 mean_diff = -8.87 median_diff = -17 на промежутке между 67 и 100 % : равен 40.73%, имеет среднее 623.45 лайков для 1 и 648.86 для 0, имеет медиану 606 лайков для 1 и 638 для 0, количество работ с меткой 1 = 244 mean_diff = -25.42 median_diff = -32

А вот мини очень много во всех категориях. В целом, среди популярных этот размер не очень котируется. Миди

Процент работ, чей признак size4_Миди истинный: на промежутке между 0 и 17 % : равен 10.88%, имеет среднее 37.15 лайков для 1 и 27.86 для 0, имеет медиану 33 лайков для 1 и 21 для 0, количество работ с меткой 1 = 633 mean_diff = 9.29 median_diff = 12 на промежутке между 17 и 33 % : равен 20.85%, имеет среднее 128.43 лайков для 1 и 131.15 для 0, имеет медиану 123 лайков для 1 и 128 для 0, количество работ с меткой 1 = 296 mean_diff = -2.72 median_diff = -5 на промежутке между 33 и 67 % : равен 24.47%, имеет среднее 298.46 лайков для 1 и 290.43 для 0, имеет медиану 288 лайков для 1 и 274 для 0, количество работ с меткой 1 = 299 mean_diff = 8.03 median_diff = 14 на промежутке между 67 и 100 % : равен 20.70%, имеет среднее 641.62 лайков для 1 и 637.70 для 0, имеет медиану 625 лайков для 1 и 623 для 0, количество работ с меткой 1 = 124 mean_diff = 3.92 median_diff = 2

Миди в целом не очень много. Среди совсем непопулярных их мало, но в остальных кучках их примерно по 20+%. Народ к этому размеру относится неплохо. Макси

Процент работ, чей признак size4_Макси истинный: на промежутке между 0 и 17 % : равен 4.26%, имеет среднее 44.03 лайков для 1 и 28.20 для 0, имеет медиану 43 лайков для 1 и 21 для 0, количество работ с меткой 1 = 248 mean_diff = 15.83 median_diff = 22 на промежутке между 17 и 33 % : равен 13.24%, имеет среднее 137.34 лайков для 1 и 129.56 для 0, имеет медиану 138 лайков для 1 и 126 для 0, количество работ с меткой 1 = 188 mean_diff = 7.78 median_diff = 12 на промежутке между 33 и 67 % : равен 18.49%, имеет среднее 297.88 лайков для 1 и 291.16 для 0, имеет медиану 288 лайков для 1 и 276 для 0, количество работ с меткой 1 = 226 mean_diff = 6.72 median_diff = 12 на промежутке между 67 и 100 % : равен 26.38%, имеет среднее 652.09 лайков для 1 и 633.65 для 0, имеет медиану 641 лайков для 1 и 618 для 0, количество работ с меткой 1 = 158 mean_diff = 18.44 median_diff = 23

Макси не очень много в целом, но их процент растёт с ростом популярности. Также народ благосклонен к этому размеру. Гигант

Процент работ, чей признак size4_Гигант истинный: на промежутке между 0 и 17 % : равен 0.41%, имеет среднее 42.21 лайков для 1 и 28.82 для 0, имеет медиану 39 лайков для 1 и 22 для 0, количество работ с меткой 1 = 24 mean_diff = 13.39 median_diff = 17 на промежутке между 17 и 33 % : равен 2.25%, имеет среднее 139.75 лайков для 1 и 130.38 для 0, имеет медиану 144 лайков для 1 и 127 для 0, количество работ с меткой 1 = 32 mean_diff = 9.37 median_diff = 17 на промежутке между 33 и 67 % : равен 6.06%, имеет среднее 311.31 лайков для 1 и 291.18 для 0, имеет медиану 309 лайков для 1 и 277 для 0, количество работ с меткой 1 = 74 mean_diff = 20.13 median_diff = 32 на промежутке между 67 и 100 % : равен 8.35%, имеет среднее 652.78 лайков для 1 и 637.21 для 0, имеет медиану 666 лайков для 1 и 618 для 0, количество работ с меткой 1 = 50 mean_diff = 15.57 median_diff = 48

Таких работ меньше всего. При том, их ничтожно мало среди непопулярных (даже если смотреть не в процентном, а в абсолютном соотношении). С популярностью растёт процент гигантов. При том, размер положительно влияет на популярность во всех категориях. Вывод: некоторая разница с предыдущем подходом действительно есть. Этот подход позволяет лучше отделить популярные от непопулярных работ, но при том, в кучках с популярными работами фанфиков оказывается значительно меньше, чем в непопулярных кучках, и потому анализ немного менее надёжен.
Отношение автора к критике
Приветствую критику в любой форме, укажите все недостатки моих работ.
Права на все произведения, опубликованные на сайте, принадлежат авторам произведений. Администрация не несет ответственности за содержание работ.