на промежутке между 0 и 17%: среднее равно 39.85 медиана равна 23 корелляция равна 1.00 (очень сильная) Промежуток: 0% — 17%, MIN лайков: 1.0, MAX лайков: 171.0, всего фанфиков: 14931, СУММА ЛАЙКОВ 595049.0 на промежутке между 17 и 33%: среднее равно 263.34 медиана равна 250 корелляция равна 1.00 (очень сильная) Промежуток: 17% — 33%, MIN лайков: 171.0, MAX лайков: 410.0, всего фанфиков: 2260, СУММА ЛАЙКОВ 595143.0 на промежутке между 33 и 67%: среднее равно 720.09 медиана равна 651 корелляция равна 1.00 (очень сильная) Промежуток: 33% — 67%, MIN лайков: 410.0, MAX лайков: 1371.0, всего фанфиков: 1653, СУММА ЛАЙКОВ 1190304.0 на промежутке между 67 и 100%: среднее равно 2630.89 медиана равна 2075 корелляция равна 1.00 (очень сильная) Промежуток: 67% — 100%, MIN лайков: 1371.0, MAX лайков: 19753.0, всего фанфиков: 453, СУММА ЛАЙКОВ 1191793.0
Первые две суммы лайков отличаются, так как я ещё раз разделил первую из трёх кучек. Проценты теперь означают не количество фанфиков. Количество процентов (разница между вторым и первым числом) означает «стоимость» всей кучки от «стоимости» всех фанфиков. Грубо говоря, кучки 0-50% и 50-100% будут иметь одинаковую общую стоимость, но в первую кучку войдёт куча «дешёвых» фанфиков, а во вторую самые популярные. Ну вы сами всё видите — выше указано количество фанфиков в каждой кучке, а так же их минимальная и максимальная «стоимость». Смотрим на разные признаки. Всё аналогично прошлой части с анализом, но с другим разбиением.Награды
На всём датасете среднее равно 1.18 медиана равна 0, корреляция 0.56 (средняя) Значение признака reward: на промежутке между 0 и 17%: среднее равно 0.26 медиана равна 0 корелляция равна 0.26 (очень слабая) на промежутке между 17 и 33%: среднее равно 1.77 медиана равна 1 корелляция равна 0.12 (очень слабая) на промежутке между 33 и 67%: среднее равно 4.43 медиана равна 2 корелляция равна 0.18 (очень слабая) на промежутке между 67 и 100%: среднее равно 16.53 медиана равна 6 корелляция равна 0.52 (средняя)
Количество наград растёт с популярностью фанфика, корреляция более или менее значимая только для популярных работ.Сколько лайков надо набрать, чтобы получить награду?
На всём датасете среднее равно 159.70 медиана равна 88, корреляция 0.38 (слабая) Значение признака lfr: на промежутке между 0 и 17%: среднее равно 43.10 медиана равна 36 корелляция равна 0.71 (высокая) на промежутке между 17 и 33%: среднее равно 110.94 медиана равна 107 корелляция равна 0.27 (очень слабая) на промежутке между 33 и 67%: среднее равно 217.14 медиана равна 160 корелляция равна 0.30 (очень слабая) на промежутке между 67 и 100%: среднее равно 376.81 медиана равна 254 корелляция равна 0.13 (очень слабая)
Мы видим, что чем популярней работа, тем сильнее меняется соотношений лайков и наград. Грубо говоря, у более популярных работ количество лайков на одну награду сильно больше, чем у непопулярных. При том корреляция везде очень слабая.Длина описания
На всём датасете среднее равно 238.67 медиана равна 221, корреляция 0.09 (очень слабая) Значение признака len_descr: на промежутке между 0 и 17%: среднее равно 229.64 медиана равна 209 корелляция равна 0.11 (очень слабая) на промежутке между 17 и 33%: среднее равно 265.59 медиана равна 258 корелляция равна 0.03 (очень слабая) на промежутке между 33 и 67%: среднее равно 268.67 медиана равна 258 корелляция равна 0.03 (очень слабая) на промежутке между 67 и 100%: среднее равно 292.06 медиана равна 291 корелляция равна 0.04 (очень слабая)
Мы видим, что она растёт, но в целом этот признак слабо связан с популярностью.Длина названия:
На всём датасете среднее равно 20.71 медиана равна 18, корреляция 0.00 (очень слабая) Значение признака len_name: на промежутке между 0 и 17%: среднее равно 20.67 медиана равна 18 корелляция равна 0.01 (очень слабая) на промежутке между 17 и 33%: среднее равно 20.75 медиана равна 18 корелляция равна -0.00 (очень слабая) на промежутке между 33 и 67%: среднее равно 20.95 медиана равна 18 корелляция равна 0.01 (очень слабая) на промежутке между 67 и 100%: среднее равно 20.78 медиана равна 18 корелляция равна -0.03 (очень слабая)
Здесь связь практически никакая. Что любопытно, в части где я предпринимал первые попытки обучить модели предсказывать количество фанфиков, этот признак был пусть и не самым, но всё же значимым. Такое возможно, так как наш анализ смотрит только на линейные соотношения, а модель может учитывать нелинейность. Если совсем просто: возьмём функцию y = x^2 (икс квадрат). Очевидно, что игрек и икс очень тесно связаны между собой, но корреляция у них будет нулевая.Размер фанфика (количество страниц)
На всём датасете среднее равно 63.81 медиана равна 15, корреляция 0.42 (слабая) Значение признака size1: на промежутке между 0 и 17%: среднее равно 35.45 медиана равна 10 корелляция равна 0.28 (очень слабая) на промежутке между 17 и 33%: среднее равно 112.52 медиана равна 48 корелляция равна 0.10 (очень слабая) на промежутке между 33 и 67%: среднее равно 179.17 медиана равна 78 корелляция равна 0.07 (очень слабая) на промежутке между 67 и 100%: среднее равно 334.33 медиана равна 189 корелляция равна 0.38 (слабая)
Количество страниц растёт с популярностью фанфика, как и раньше. Ну тут есть объяснения — в комментах мне подсказали, что авторы, которых не лайкают, часто бросают работу. Да и в целом — совсем уж графоману будет тяжело настрочить работу на 1000 страниц (ваш покорный слуга — исключение).Количество частей
На всём датасете среднее равно 8.59 медиана равна 3, корреляция 0.38 (слабая) Значение признака size2: на промежутке между 0 и 17%: среднее равно 5.66 медиана равна 2 корелляция равна 0.25 (очень слабая) на промежутке между 17 и 33%: среднее равно 13.97 медиана равна 8 корелляция равна 0.05 (очень слабая) на промежутке между 33 и 67%: среднее равно 20.13 медиана равна 11 корелляция равна 0.07 (очень слабая) на промежутке между 67 и 100%: среднее равно 36.29 медиана равна 25 корелляция равна 0.31 (слабая)
Как и в прошлом анализе, количество частей растёт.Длина части
На всём датасете среднее равно 6.61 медиана равна 5, корреляция 0.16 (очень слабая) Значение признака pages_per_part: на промежутке между 0 и 17%: среднее равно 5.84 медиана равна 4 корелляция равна 0.26 (очень слабая) на промежутке между 17 и 33%: среднее равно 8.67 медиана равна 7 корелляция равна 0.04 (очень слабая) на промежутке между 33 и 67%: среднее равно 9.92 медиана равна 8 корелляция равна 0.02 (очень слабая) на промежутке между 67 и 100%: среднее равно 9.87 медиана равна 8 корелляция равна 0.04 (очень слабая)
Мы видим, что длина части растёт, но у самых популярных работ она немного уменьшается, в предыдущем анализе она везде росла.Количество лайков за страницу
На всём датасете среднее равно 10.11 медиана равна 2, корреляция 0.28 (очень слабая) Значение признака p: на промежутке между 0 и 17%: среднее равно 4.78 медиана равна 2 корелляция равна 0.37 (слабая) на промежутке между 17 и 33%: среднее равно 16.68 медиана равна 5 корелляция равна 0.08 (очень слабая) на промежутке между 33 и 67%: среднее равно 33.89 медиана равна 9 корелляция равна 0.13 (очень слабая) на промежутке между 67 и 100%: среднее равно 66.62 медиана равна 12 корелляция равна -0.02 (очень слабая)
Тут мы как и в предыдущем анализе наблюдаем, что у популярных работ ставят больше лайков за страницу (то есть, выше показатель числа лайков делённого на число страниц). Моя гипотеза в том, что отчасти влияют популярные мини — так как если работа из 5 страниц будет иметь 5000 лайков, то это может сильно повлиять на данную статистику; ну также важно и то, что популярные работы в целом чаще лайкают.***
Количество указанных жанров
На всём датасете среднее равно 11.12 медиана равна 9, корреляция 0.12 (очень слабая) Значение признака genres_count: на промежутке между 0 и 17%: среднее равно 10.38 медиана равна 8 корелляция равна 0.10 (очень слабая) на промежутке между 17 и 33%: среднее равно 13.13 медиана равна 11 корелляция равна 0.01 (очень слабая) на промежутке между 33 и 67%: среднее равно 13.91 медиана равна 12 корелляция равна -0.01 (очень слабая) на промежутке между 67 и 100%: среднее равно 15.58 медиана равна 13 корелляция равна 0.04 (очень слабая)
Мы видим, что у популярных работ количество жанров повышается.Количество указанных персонажей
На всём датасете среднее равно 5.55 медиана равна 4, корреляция 0.03 (очень слабая) Значение признака characters_count: на промежутке между 0 и 17%: среднее равно 5.43 медиана равна 4 корелляция равна 0.04 (очень слабая) на промежутке между 17 и 33%: среднее равно 5.96 медиана равна 4 корелляция равна 0.01 (очень слабая) на промежутке между 33 и 67%: среднее равно 5.86 медиана равна 4 корелляция равна -0.05 (очень слабая) на промежутке между 67 и 100%: среднее равно 6.37 медиана равна 4 корелляция равна 0.02 (очень слабая)
Количество указанных персонажей довольно слабо связано с популярностью, медиана везде одинаковая, среднее отличается незначительно. В целом, данный анализ говорит, что это неважный признак.Количество указанных пейрингов
На всём датасете среднее равно 1.76 медиана равна 1, корреляция 0.02 (очень слабая) Значение признака pairings_count: на промежутке между 0 и 17%: среднее равно 1.73 медиана равна 1 корелляция равна 0.04 (очень слабая) на промежутке между 17 и 33%: среднее равно 1.86 медиана равна 1 корелляция равна 0.01 (очень слабая) на промежутке между 33 и 67%: среднее равно 1.85 медиана равна 1 корелляция равна -0.03 (очень слабая) на промежутке между 67 и 100%: среднее равно 1.86 медиана равна 1 корелляция равна -0.01 (очень слабая)
Тут вообще не наблюдается какой-либо взаимосвязи.***
Теперь глянем на количество дней, которое прошло с последнего обновления работы. Учтём, что в датасете работы всё те же, что и были при начале написания статьи. Мы отдельно рассмотрим для завершённых и процессников. Завершённые:Значение признака days: на промежутке между 0 и 17%: среднее равно 202.63 медиана равна 196 корелляция равна 0.06 (очень слабая) на промежутке между 17 и 33%: среднее равно 224.88 медиана равна 222 корелляция равна 0.06 (очень слабая) на промежутке между 33 и 67%: среднее равно 228.88 медиана равна 234 корелляция равна 0.01 (очень слабая) на промежутке между 67 и 100%: среднее равно 227.36 медиана равна 227 корелляция равна 0.04 (очень слабая)
В целом в выборке относительно большое количество старых работ (но незначительно старше года). В целом, то, что в последней кучки работы чуть моложе, чем в предыдущей может говорить о том, интерес к фандому не гаснет и люди иногда пишут популярные работы. В процессе:Значение признака days: на промежутке между 0 и 17%: среднее равно 166.16 медиана равна 141 корелляция равна -0.06 (очень слабая) на промежутке между 17 и 33%: среднее равно 150.59 медиана равна 120 корелляция равна 0.03 (очень слабая) на промежутке между 33 и 67%: среднее равно 144.10 медиана равна 113 корелляция равна -0.04 (очень слабая) на промежутке между 67 и 100%: среднее равно 136.88 медиана равна 99 корелляция равна 0.07 (очень слабая)
Ну тут как и ожидалось, количество дней уменьшается с ростом популярности.***
Бинарные категориальные признаки
Рассмотрим теперь бинарные категориальные признаки, то есть те которые могут иметь значение ДА или НЕТ. Как читать все эти записи уже указано в прошлом анализе, так что повторяться не буду. Является ли работа переводом?на промежутке между 0 и 17%: равен 7,48%, имеет среднее 62.97 лайков для 1 и 37.98 для 0, имеет медиану 52 лайков для 1 и 21 для 0, количество работ с меткой 1 = 1117 mean_diff = 24.99 median_diff = 31 на промежутке между 17 и 33%: равен 17,08%, имеет среднее 262.71 лайков для 1 и 263.47 для 0, имеет медиану 247 лайков для 1 и 250 для 0, количество работ с меткой 1 = 386 mean_diff = -0.76 median_diff = -3 на промежутке между 33 и 67%: равен 15,91%, имеет среднее 718.79 лайков для 1 и 720.33 для 0, имеет медиану 648 лайков для 1 и 651 для 0, количество работ с меткой 1 = 263 mean_diff = -1.55 median_diff = -3 на промежутке между 67 и 100%: равен 14,57%, имеет среднее 2503.35 лайков для 1 и 2652.64 для 0, имеет медиану 1948 лайков для 1 и 2092 для 0, количество работ с меткой 1 = 66 mean_diff = -149.29 median_diff = -144
Мы видим, что для самых непопулярных работ переводы популярней других работ, но в остальном переводы менее популярные чем оригинальные фанфики. Является ли работа кроссовером?на промежутке между 0 и 17%: равен 13,69%, имеет среднее 42.38 лайков для 1 и 39.45 для 0, имеет медиану 28 лайков для 1 и 22 для 0, количество работ с меткой 1 = 2044 mean_diff = 2.92 median_diff = 6 на промежутке между 17 и 33%: равен 14,42%, имеет среднее 262.26 лайков для 1 и 263.52 для 0, имеет медиану 252 лайков для 1 и 249 для 0, количество работ с меткой 1 = 326 mean_diff = -1.26 median_diff = 4 на промежутке между 33 и 67%: равен 15,91%, имеет среднее 732.50 лайков для 1 и 717.74 для 0, имеет медиану 684 лайков для 1 и 647 для 0, количество работ с меткой 1 = 263 mean_diff = 14.76 median_diff = 37 на промежутке между 67 и 100%: равен 20,09%, имеет среднее 2511.60 лайков для 1 и 2660.88 для 0, имеет медиану 2212 лайков для 1 и 2038 для 0, количество работ с меткой 1 = 91 mean_diff = -149.27 median_diff = 174
Тут мы видим, что в более популярных работах больше распространены кроссоверы (среди непопулярных всего 13% работ являются кроссоверами, а среди популярных — 20%). Притом на медиану кроссоверы везде влияют хорошо, а вот по среднему кроссоверы менее популярны среди самых популярных работ. Наверно сказывается несколько ТОП-овых именно русских работ. Горячая работана промежутке между 0 и 17%: равен 6,03%, имеет среднее 51.98 лайков для 1 и 39.08 для 0, имеет медиану 39 лайков для 1 и 22 для 0, количество работ с меткой 1 = 900 mean_diff = 12.91 median_diff = 17 на промежутке между 17 и 33%: равен 8,63%, имеет среднее 257.50 лайков для 1 и 263.89 для 0, имеет медиану 247 лайков для 1 и 250 для 0, количество работ с меткой 1 = 195 mean_diff = -6.39 median_diff = -3 на промежутке между 33 и 67%: равен 9,62%, имеет среднее 706.29 лайков для 1 и 721.56 для 0, имеет медиану 643 лайков для 1 и 651 для 0, количество работ с меткой 1 = 159 mean_diff = -15.27 median_diff = -8 на промежутке между 67 и 100%: равен 8,39%, имеет среднее 2748.05 лайков для 1 и 2620.16 для 0, имеет медиану 2357 лайков для 1 и 2046 для 0, количество работ с меткой 1 = 38 mean_diff = 127.89 median_diff = 311
Процент горячих работ распространён более или менее равномерно, хотя среди непопулярных их всё же меньше. При том для средних работ более популярны те, что не горячие, но для ТОПовых популярнее горячие. Возможно именно эта функция сайта пропихивает «средние» работы в ТОП?***
Теперь рассмотрим категориальные признаки с несколькими категориями. То есть, например, статус работы (В процессе, завершён и заморожен) — тут три категории. Мы будем рассматривать каждую категорию в отдельности, как если бы она была бинарной категорией. То есть является ли работа завершённой или нет? Только важно понимать, что в рамках одного признака категории не могут пересекаться (т.е. работа не может быть одновременно завершённой и в процессе).СТАТУС РАБОТЫ
В процессена промежутке между 0 и 17%: равен 49,36%, имеет среднее 34.87 лайков для 1 и 44.71 для 0, имеет медиану 18 лайков для 1 и 29 для 0, количество работ с меткой 1 = 7370 mean_diff = -9.85 median_diff = -11 на промежутке между 17 и 33%: равен 42,43%, имеет среднее 263.82 лайков для 1 и 262.98 для 0, имеет медиану 251 лайков для 1 и 249 для 0, количество работ с меткой 1 = 959 mean_diff = 0.84 median_diff = 2 на промежутке между 33 и 67%: равен 39,32%, имеет среднее 710.32 лайков для 1 и 726.42 для 0, имеет медиану 635 лайков для 1 и 665 для 0, количество работ с меткой 1 = 650 mean_diff = -16.10 median_diff = -30 на промежутке между 67 и 100%: равен 48,34%, имеет среднее 2831.11 лайков для 1 и 2443.51 для 0, имеет медиану 2249 лайков для 1 и 1960 для 0, количество работ с меткой 1 = 219 mean_diff = 387.60 median_diff = 290
Как ни странно, среди самых популярных работ — статус «в процессе» влияет положительно. Медиана и среднее процессников выше чем остальных работ. Притом везде количество процессников чуть меньше половины. Завершённа промежутке между 0 и 17%: равен 47,40%, имеет среднее 45.88 лайков для 1 и 34.42 для 0, имеет медиану 30 лайков для 1 и 17 для 0, количество работ с меткой 1 = 7077 mean_diff = 11.46 median_diff = 13 на промежутке между 17 и 33%: равен 55,58%, имеет среднее 263.57 лайков для 1 и 263.05 для 0, имеет медиану 249 лайков для 1 и 250 для 0, количество работ с меткой 1 = 1256 mean_diff = 0.52 median_diff = -1 на промежутке между 33 и 67%: равен 59,17%, имеет среднее 728.06 лайков для 1 и 708.53 для 0, имеет медиану 665 лайков для 1 и 630 для 0, количество работ с меткой 1 = 978 mean_diff = 19.53 median_diff = 35 на промежутке между 67 и 100%: равен 50,77%, имеет среднее 2457.63 лайков для 1 и 2809.59 для 0, имеет медиану 1963 лайков для 1 и 2229 для 0, количество работ с меткой 1 = 230 mean_diff = -351.96 median_diff = -266
Как ни странно, среди самых популярных завершённые работы меньше ценятся (правда в выборку не попали некоторые монстры вроде «Платина и шоколад», так как в неё попали относительно свежие работы). Замороженна промежутке между 0 и 17%: равен 3,24%, имеет среднее 27.68 лайков для 1 и 40.26 для 0, имеет медиану 13 лайков для 1 и 23 для 0, количество работ с меткой 1 = 484 mean_diff = -12.58 median_diff = -10 на промежутке между 17 и 33%: равен 1,99%, имеет среднее 246.56 лайков для 1 и 263.68 для 0, имеет медиану 226 лайков для 1 и 250 для 0, количество работ с меткой 1 = 45 mean_diff = -17.12 median_diff = -24 на промежутке между 33 и 67%: равен 1,51%, имеет среднее 662.08 лайков для 1 и 720.98 для 0, имеет медиану 578 лайков для 1 и 652 для 0, количество работ с меткой 1 = 25 mean_diff = -58.90 median_diff = -74 на промежутке между 67 и 100%: равен 0,88%, имеет среднее 1631.50 лайков для 1 и 2639.79 для 0, имеет медиану 1526 лайков для 1 и 2084 для 0, количество работ с меткой 1 = 4 mean_diff = -1008.29 median_diff = -558
Тут, как и ожидалось — замороженные работы любят меньше других.ВИДЫ ОТНОШЕНИЙ
СлэшПроцент работ, чей признак orientation_Слэш истинный: на промежутке между 0 и 17%: равен 22,58%, имеет среднее 52.65 лайков для 1 и 36.12 для 0, имеет медиану 38 лайков для 1 и 20 для 0, количество работ с меткой 1 = 3372 mean_diff = 16.53 median_diff = 18 на промежутке между 17 и 33%: равен 34,96%, имеет среднее 262.63 лайков для 1 и 263.72 для 0, имеет медиану 249 лайков для 1 и 250 для 0, количество работ с меткой 1 = 790 mean_diff = -1.09 median_diff = -1 на промежутке между 33 и 67%: равен 34,42%, имеет среднее 698.61 лайков для 1 и 731.36 для 0, имеет медиану 627 лайков для 1 и 666 для 0, количество работ с меткой 1 = 569 mean_diff = -32.75 median_diff = -39 на промежутке между 67 и 100%: равен 28,70%, имеет среднее 2635.29 лайков для 1 и 2629.12 для 0, имеет медиану 2004 лайков для 1 и 2098 для 0, количество работ с меткой 1 = 130 mean_diff = 6.17 median_diff = -94
Можем наблюдать, что в целом слэш не является супер-популярным. Он популярней среди непопулярных работ, но в остальном он менее популярен, чем другие виды отношений. Во всех категориях работ Слэша 20-30 процентов, в целом чуть меньше трети всех работ. ГетПроцент работ, чей признак orientation_Гет истинный: на промежутке между 0 и 17%: равен 46,57%, имеет среднее 39.68 лайков для 1 и 40.01 для 0, имеет медиану 23 лайков для 1 и 23 для 0, количество работ с меткой 1 = 6953 mean_diff = -0.33 median_diff = 0 на промежутке между 17 и 33%: равен 42,08%, имеет среднее 260.17 лайков для 1 и 265.64 для 0, имеет медиану 244 лайков для 1 и 253 для 0, количество работ с меткой 1 = 951 mean_diff = -5.46 median_diff = -9 на промежутке между 33 и 67%: равен 39,99%, имеет среднее 723.54 лайков для 1 и 717.79 для 0, имеет медиану 663 лайков для 1 и 648 для 0, количество работ с меткой 1 = 661 mean_diff = 5.75 median_diff = 14 на промежутке между 67 и 100%: равен 34,88%, имеет среднее 2522.11 лайков для 1 и 2689.15 для 0, имеет медиану 2120 лайков для 1 и 2036 для 0, количество работ с меткой 1 = 158 mean_diff = -167.04 median_diff = 84
Тут мы видим, что для первой трети работ гет менее популярен, чем другие, в средней и самой популярной третях — гет оказывает хорошее влияние на медиану, однако среди самых популярных гет убавляет среднее — очевидно, популярнейшие из работ попавших в выборку имеют другие метки. Всего гета чуть больше трети ДженПроцент работ, чей признак orientation_Джен истинный: на промежутке между 0 и 17%: равен 22,07%, имеет среднее 30.03 лайков для 1 и 42.63 для 0, имеет медиану 14 лайков для 1 и 27 для 0, количество работ с меткой 1 = 3295 mean_diff = -12.60 median_diff = -13 на промежутке между 17 и 33%: равен 16,73%, имеет среднее 272.50 лайков для 1 и 261.50 для 0, имеет медиану 263 лайков для 1 и 247 для 0, количество работ с меткой 1 = 378 mean_diff = 11.00 median_diff = 16 на промежутке между 33 и 67%: равен 21,48%, имеет среднее 754.85 лайков для 1 и 710.58 для 0, имеет медиану 683 лайков для 1 и 644 для 0, количество работ с меткой 1 = 355 mean_diff = 44.27 median_diff = 39 на промежутке между 67 и 100%: равен 34,00%, имеет среднее 2791.20 лайков для 1 и 2548.32 для 0, имеет медиану 2118 лайков для 1 и 2025 для 0, количество работ с меткой 1 = 154 mean_diff = 242.88 median_diff = 92
Джена на фикбуке также довольно много. Во всех категориях работ, кроме самых непопулярных, Джен хорошо влияет на популярность. Других меток очень мало, особенно в популярных работах и анализировать их бессмысленно. Любопытно, что в самых популярных нет ни одной статьи.***
РЕЙТИНГ РАБОТЫ
Пойдём по порядку. То есть, G, PG-13, R, NC-17, NC-21 G — работы для всех.Процент работ, чей признак rating_G истинный: на промежутке между 0 и 17%: равен 11,31%, имеет среднее 26.07 лайков для 1 и 41.61 для 0, имеет медиану 13 лайков для 1 и 25 для 0, количество работ с меткой 1 = 1688 mean_diff = -15.54 median_diff = -12 на промежутке между 17 и 33%: равен 4,51%, имеет среднее 254.38 лайков для 1 и 263.76 для 0, имеет медиану 228 лайков для 1 и 250 для 0, количество работ с меткой 1 = 102 mean_diff = -9.38 median_diff = -22 на промежутке между 33 и 67%: равен 4,17%, имеет среднее 715.43 лайков для 1 и 720.29 для 0, имеет медиану 632 лайков для 1 и 652 для 0, количество работ с меткой 1 = 69 mean_diff = -4.85 median_diff = -20 на промежутке между 67 и 100%: равен 5,96%, имеет среднее 2413.41 лайков для 1 и 2644.67 для 0, имеет медиану 1970 лайков для 1 и 2085 для 0, количество работ с меткой 1 = 27 mean_diff = -231.27 median_diff = -115
Мы видим, что в целом этот рейтинг непопулярен. Популярных работ с рейтингом G всего 27. PG-13 незначительные ограничения, типа никакой жести и пошлятины, но всё же не совсем «детские» темы в нейПроцент работ, чей признак rating_PG_13 истинный: на промежутке между 0 и 17 % : равен 25.07%, имеет среднее 37.87 лайков для 1 и 40.52 для 0, имеет медиану 22 лайков для 1 и 23 для 0, количество работ с меткой 1 = 3743 mean_diff = -2.65 median_diff = -1 на промежутке между 17 и 33 % : равен 15.88%, имеет среднее 262.72 лайков для 1 и 263.46 для 0, имеет медиану 249 лайков для 1 и 250 для 0, количество работ с меткой 1 = 359 mean_diff = -0.74 median_diff = -1 на промежутке между 33 и 67 % : равен 14.04%, имеет среднее 736.25 лайков для 1 и 717.45 для 0, имеет медиану 660 лайков для 1 и 650 для 0, количество работ с меткой 1 = 232 mean_diff = 18.81 median_diff = 10 на промежутке между 67 и 100 % : равен 13.91%, имеет среднее 2481.32 лайков для 1 и 2655.05 для 0, имеет медиану 1970 лайков для 1 и 2089 для 0, количество работ с меткой 1 = 63 mean_diff = -173.73 median_diff = -119
Таких работ уже чуть больше среди популярных. При том, сам рейтинг не особо популярен, но среди средней трети работ влияет на популярность даже положительно. R без подробностей, но есть упоминания всякой жести и пошлятины, рейтинг этой статьи как разна промежутке между 0 и 17 % : равен 25.66%, имеет среднее 39.64 лайков для 1 и 39.93 для 0, имеет медиану 23 лайков для 1 и 23 для 0, количество работ с меткой 1 = 3832 mean_diff = -0.29 median_diff = 0 на промежутке между 17 и 33 % : равен 25.35%, имеет среднее 262.89 лайков для 1 и 263.49 для 0, имеет медиану 250 лайков для 1 и 249 для 0, количество работ с меткой 1 = 573 mean_diff = -0.60 median_diff = 1 на промежутке между 33 и 67 % : равен 23.35%, имеет среднее 722.36 лайков для 1 и 719.39 для 0, имеет медиану 653 лайков для 1 и 650 для 0, количество работ с меткой 1 = 386 mean_diff = 2.97 median_diff = 3 на промежутке между 67 и 100 % : равен 20.31%, имеет среднее 2682.37 лайков для 1 и 2617.77 для 0, имеет медиану 2256 лайков для 1 и 2023 для 0, количество работ с меткой 1 = 92 mean_diff = 64.60 median_diff = 232
Таких работ уже больше среди популярных. Сам рейтинг также более любим народом. NC-17 можно писать о чём угодно, но всё же с некоторыми тормозамина промежутке между 0 и 17 % : равен 34.22%, имеет среднее 46.35 лайков для 1 и 36.48 для 0, имеет медиану 30 лайков для 1 и 20 для 0, количество работ с меткой 1 = 5110 mean_diff = 9.87 median_diff = 10 на промежутке между 17 и 33 % : равен 50.18%, имеет среднее 265.17 лайков для 1 и 261.49 для 0, имеет медиану 254 лайков для 1 и 246 для 0, количество работ с меткой 1 = 1134 mean_diff = 3.68 median_diff = 8 на промежутке между 33 и 67 % : равен 55.11%, имеет среднее 714.38 лайков для 1 и 727.10 для 0, имеет медиану 649 лайков для 1 и 653 для 0, количество работ с меткой 1 = 911 mean_diff = -12.72 median_diff = -4 на промежутке между 67 и 100 % : равен 54.30%, имеет среднее 2698.56 лайков для 1 и 2550.47 для 0, имеет медиану 2079 лайков для 1 и 2075 для 0, количество работ с меткой 1 = 246 mean_diff = 148.09 median_diff = 4
Таких работ больше всего на фикбуке. При том, их меньше только среди непопулярных. Как ни странно, чуть отрицательно влияет на популярность среди среднепопулярных работ, в остальном любим народом. NC_21 — кровь, кишки, и всё такое, короче ИСТИННЫЙ рейтинг этой статьина промежутке между 0 и 17 % : равен 3.74%, имеет среднее 36.89 лайков для 1 и 39.97 для 0, имеет медиану 20 лайков для 1 и 23 для 0, количество работ с меткой 1 = 558 mean_diff = -3.08 median_diff = -3 на промежутке между 17 и 33 % : равен 4.07%, имеет среднее 255.91 лайков для 1 и 263.65 для 0, имеет медиану 238 лайков для 1 и 250 для 0, количество работ с меткой 1 = 92 mean_diff = -7.74 median_diff = -12 на промежутке между 33 и 67 % : равен 3.33%, имеет среднее 736.36 лайков для 1 и 719.53 для 0, имеет медиану 683 лайков для 1 и 650 для 0, количество работ с меткой 1 = 55 mean_diff = 16.84 median_diff = 33 на промежутке между 67 и 100 % : равен 5.52%, имеет среднее 2387.36 лайков для 1 и 2645.11 для 0, имеет медиану 2025 лайков для 1 и 2080 для 0, количество работ с меткой 1 = 25 mean_diff = -257.75 median_diff = -54
Самый редкий рейтинг. При том для средне-популярных работ (вторая треть) он влияет хорошо, но в остальном - не очень. Очевидно, народ не любит совсем уж жесть.***
ПЛАНИРУЕМЫЙ РАЗМЕР ДЛЯ РАБОТ В ПРОЦЕССЕ
Сразу поясню - имеются в виду именно работы в процессе, в которых указана мол "планируется Макси" и т.п. МАКСИПроцент работ, чей признак size3_Макси истинный: на промежутке между 0 и 17 % : равен 44.25%, имеет среднее 22.93 лайков для 1 и 16.98 для 0, имеет медиану 17 лайков для 1 и 10 для 0, количество работ с меткой 1 = 2730 mean_diff = 5.95 median_diff = 7 на промежутке между 17 и 33 % : равен 65.33%, имеет среднее 106.51 лайков для 1 и 104.52 для 0, имеет медиану 104 лайков для 1 и 101 для 0, количество работ с меткой 1 = 682 mean_diff = 1.98 median_diff = 3 на промежутке между 33 и 67 % : равен 70.15%, имеет среднее 231.69 лайков для 1 и 227.62 для 0, имеет медиану 222 лайков для 1 и 215 для 0, количество работ с меткой 1 = 684 mean_diff = 4.08 median_diff = 7 на промежутке между 67 и 100 % : равен 78.60%, имеет среднее 468.80 лайков для 1 и 469.80 для 0, имеет медиану 455 лайков для 1 и 468 для 0, количество работ с меткой 1 = 371 mean_diff = -1.00 median_diff = -13
Среди более или менее популярных работ самый распространённый планируемый размер. На популярность влияет слабо, но среди популярных совсем немного в минус. МидиПроцент работ, чей признак size3_Миди истинный: на промежутке между 0 и 17 % : равен 39.83%, имеет среднее 18.09 лайков для 1 и 20.62 для 0, имеет медиану 11 лайков для 1 и 14 для 0, количество работ с меткой 1 = 2457 mean_diff = -2.52 median_diff = -3 на промежутке между 17 и 33 % : равен 28.16%, имеет среднее 102.55 лайков для 1 и 107.10 для 0, имеет медиану 98 лайков для 1 и 105 для 0, количество работ с меткой 1 = 294 mean_diff = -4.55 median_diff = -6 на промежутке между 33 и 67 % : равен 26.56%, имеет среднее 229.81 лайков для 1 и 230.72 для 0, имеет медиану 216 лайков для 1 и 221 для 0, количество работ с меткой 1 = 259 mean_diff = -0.91 median_diff = -5 на промежутке между 67 и 100 % : равен 17.58%, имеет среднее 465.78 лайков для 1 и 469.70 для 0, имеет медиану 461 лайков для 1 и 457 для 0, количество работ с меткой 1 = 83 mean_diff = -3.92 median_diff = 4
Таких работ меньше. МиниПроцент работ, чей признак size3_Мини истинный: на промежутке между 0 и 17 % : равен 15.92%, имеет среднее 14.18 лайков для 1 и 20.64 для 0, имеет медиану 8 лайков для 1 и 13 для 0, количество работ с меткой 1 = 982 mean_diff = -6.46 median_diff = -5 на промежутке между 17 и 33 % : равен 6.51%, имеет среднее 113.06 лайков для 1 и 105.32 для 0, имеет медиану 116 лайков для 1 и 102 для 0, количество работ с меткой 1 = 68 mean_diff = 7.74 median_diff = 14 на промежутке между 33 и 67 % : равен 3.28%, имеет среднее 209.84 лайков для 1 и 231.18 для 0, имеет медиану 186 лайков для 1 и 222 для 0, количество работ с меткой 1 = 32 mean_diff = -21.33 median_diff = -36 на промежутке между 67 и 100 % : равен 3.81%, имеет среднее 488.33 лайков для 1 и 468.25 для 0, имеет медиану 482 лайков для 1 и 456 для 0, количество работ с меткой 1 = 18 mean_diff = 20.09 median_diff = 27
Таких работ в целом очень мало, что и не удивительно - всё же мини легко дописать, и он скорее будет в завершённых чем в процессниках.РАЗМЕР ЗАВЕРШЁННЫХ РАБОТ
На фикбуке нет официальных размеров, но есть выбор количества страниц при поиске работы. На него я и ориентировался. Рассматриваются ТОЛЬКО завершённые, не замороженные и не в процессе. Итак, размеры для завершённых работ: Гигант, если страниц строго больше 300 (решил для интереса сделать) Макси, если страниц строго больше 70 Миди, если страниц строго больше 20 и не больше 70 Мини, если страниц строго больше 3 и не больше 20 Драббл, если страниц от 1 до 3 включительно ДрабблПроцент работ, чей признак size4_Драббл истинный: на промежутке между 0 и 17 % : равен 37.12%, имеет среднее 20.71 лайков для 1 и 33.69 для 0, имеет медиану 13 лайков для 1 и 28 для 0, количество работ с меткой 1 = 2160 mean_diff = -12.99 median_diff = -15 на промежутке между 17 и 33 % : равен 11.20%, имеет среднее 124.56 лайков для 1 и 131.35 для 0, имеет медиану 119 лайков для 1 и 128 для 0, количество работ с меткой 1 = 159 mean_diff = -6.79 median_diff = -9 на промежутке между 33 и 67 % : равен 7.86%, имеет среднее 273.73 лайков для 1 и 293.99 для 0, имеет медиану 248 лайков для 1 и 280 для 0, количество работ с меткой 1 = 96 mean_diff = -20.26 median_diff = -32 на промежутке между 67 и 100 % : равен 3.84%, имеет среднее 657.26 лайков для 1 и 637.76 для 0, имеет медиану 655 лайков для 1 и 624 для 0, количество работ с меткой 1 = 23 mean_diff = 19.50 median_diff = 31
Среди популярных очень мало драбблов, в целом их количество падает с ростом популярности. При том, именно среди самых популярных они вполне популярные. МиниПроцент работ, чей признак size4_Мини истинный: на промежутке между 0 и 17 % : равен 47.33%, имеет среднее 31.90 лайков для 1 и 26.16 для 0, имеет медиану 26 лайков для 1 и 18 для 0, количество работ с меткой 1 = 2754 mean_diff = 5.74 median_diff = 8 на промежутке между 17 и 33 % : равен 52.46%, имеет среднее 130.63 лайков для 1 и 130.54 для 0, имеет медиану 127 лайков для 1 и 127 для 0, количество работ с меткой 1 = 745 mean_diff = 0.09 median_diff = 0 на промежутке между 33 и 67 % : равен 43.13%, имеет среднее 287.35 лайков для 1 и 296.22 для 0, имеет медиану 269 лайков для 1 и 286 для 0, количество работ с меткой 1 = 527 mean_diff = -8.87 median_diff = -17 на промежутке между 67 и 100 % : равен 40.73%, имеет среднее 623.45 лайков для 1 и 648.86 для 0, имеет медиану 606 лайков для 1 и 638 для 0, количество работ с меткой 1 = 244 mean_diff = -25.42 median_diff = -32
А вот мини очень много во всех категориях. В целом, среди популярных этот размер не очень котируется. МидиПроцент работ, чей признак size4_Миди истинный: на промежутке между 0 и 17 % : равен 10.88%, имеет среднее 37.15 лайков для 1 и 27.86 для 0, имеет медиану 33 лайков для 1 и 21 для 0, количество работ с меткой 1 = 633 mean_diff = 9.29 median_diff = 12 на промежутке между 17 и 33 % : равен 20.85%, имеет среднее 128.43 лайков для 1 и 131.15 для 0, имеет медиану 123 лайков для 1 и 128 для 0, количество работ с меткой 1 = 296 mean_diff = -2.72 median_diff = -5 на промежутке между 33 и 67 % : равен 24.47%, имеет среднее 298.46 лайков для 1 и 290.43 для 0, имеет медиану 288 лайков для 1 и 274 для 0, количество работ с меткой 1 = 299 mean_diff = 8.03 median_diff = 14 на промежутке между 67 и 100 % : равен 20.70%, имеет среднее 641.62 лайков для 1 и 637.70 для 0, имеет медиану 625 лайков для 1 и 623 для 0, количество работ с меткой 1 = 124 mean_diff = 3.92 median_diff = 2
Миди в целом не очень много. Среди совсем непопулярных их мало, но в остальных кучках их примерно по 20+%. Народ к этому размеру относится неплохо. МаксиПроцент работ, чей признак size4_Макси истинный: на промежутке между 0 и 17 % : равен 4.26%, имеет среднее 44.03 лайков для 1 и 28.20 для 0, имеет медиану 43 лайков для 1 и 21 для 0, количество работ с меткой 1 = 248 mean_diff = 15.83 median_diff = 22 на промежутке между 17 и 33 % : равен 13.24%, имеет среднее 137.34 лайков для 1 и 129.56 для 0, имеет медиану 138 лайков для 1 и 126 для 0, количество работ с меткой 1 = 188 mean_diff = 7.78 median_diff = 12 на промежутке между 33 и 67 % : равен 18.49%, имеет среднее 297.88 лайков для 1 и 291.16 для 0, имеет медиану 288 лайков для 1 и 276 для 0, количество работ с меткой 1 = 226 mean_diff = 6.72 median_diff = 12 на промежутке между 67 и 100 % : равен 26.38%, имеет среднее 652.09 лайков для 1 и 633.65 для 0, имеет медиану 641 лайков для 1 и 618 для 0, количество работ с меткой 1 = 158 mean_diff = 18.44 median_diff = 23
Макси не очень много в целом, но их процент растёт с ростом популярности. Также народ благосклонен к этому размеру. ГигантПроцент работ, чей признак size4_Гигант истинный: на промежутке между 0 и 17 % : равен 0.41%, имеет среднее 42.21 лайков для 1 и 28.82 для 0, имеет медиану 39 лайков для 1 и 22 для 0, количество работ с меткой 1 = 24 mean_diff = 13.39 median_diff = 17 на промежутке между 17 и 33 % : равен 2.25%, имеет среднее 139.75 лайков для 1 и 130.38 для 0, имеет медиану 144 лайков для 1 и 127 для 0, количество работ с меткой 1 = 32 mean_diff = 9.37 median_diff = 17 на промежутке между 33 и 67 % : равен 6.06%, имеет среднее 311.31 лайков для 1 и 291.18 для 0, имеет медиану 309 лайков для 1 и 277 для 0, количество работ с меткой 1 = 74 mean_diff = 20.13 median_diff = 32 на промежутке между 67 и 100 % : равен 8.35%, имеет среднее 652.78 лайков для 1 и 637.21 для 0, имеет медиану 666 лайков для 1 и 618 для 0, количество работ с меткой 1 = 50 mean_diff = 15.57 median_diff = 48
Таких работ меньше всего. При том, их ничтожно мало среди непопулярных (даже если смотреть не в процентном, а в абсолютном соотношении). С популярностью растёт процент гигантов. При том, размер положительно влияет на популярность во всех категориях. Вывод: некоторая разница с предыдущем подходом действительно есть. Этот подход позволяет лучше отделить популярные от непопулярных работ, но при том, в кучках с популярными работами фанфиков оказывается значительно меньше, чем в непопулярных кучках, и потому анализ немного менее надёжен.