ID работы: 14726136

Гарри Поттер и Анализ Данных

Статья
R
В процессе
35
автор
Пэйринг и персонажи:
Размер:
планируется Мини, написана 91 страница, 8 частей
Описание:
Посвящение:
Примечания:
Публикация на других ресурсах:
Уточнять у автора / переводчика
Поделиться:
Награды от читателей:
35 Нравится 71 Отзывы 8 В сборник Скачать

Гарри Поттер и тайны питона || АНАЛИЗ ЖАНРОВ И ПРОЧИХ МЕТОК

Настройки текста

- Гарри Поттер, почему ты не говорил, что ты змееуст? - В смысле змееуст, Гермиона? - Говоришь на языке змей! - Я не говорю на нём. Я просто пишу на питоне

Что вообще такое анализ данных? Это выводы и гипотезы, сделанные исключительно на основе цифр. Например, есть мнение, что на фикбуке пишут исключительно слэш, а всё остальное статистическая погрешность - но как мы выяснили это не так (а вот народ действительно любит слэш). Цель данного анализа - понять что любит и не любит фэндом, а также что пишут и не пишут авторы. Более сложная цель - понять рецепт идеального фанфика и понять, как лучше оформить ваш фанфик. Также проанализировать название и текст описания. Сложности анализа Нелинейность. Это скорее не сложность, а недостаток аналитического подхода. Дело в том, что каждый фанфик имеет огромное число признаков - жанры, направленность, персонажи и так далее. Анализ показывает как тот или иной признак влияет на популярность в вакууме, но при сочетании друг с другом они могут вести себя совсем иначе. Наглядная аналогия: солёная рыбка (особенно к пиву) - это вкусно, шоколад - это тоже вкусно, а вот вместе.... Ну эстеты найдутся конечно, но в целом это не сочетается. Или сырой лук - думаю, мало кто любит кушать луковицы просто так, но в салате они будут очень даже ничего. Также и с жанрами и прочим - возможно, какие-то сочетания окажутся очень непопулярными, в то время как сами по себе жанры - очень даже. Как с этим бороться? Всё же я больше по машинному обучению, а чистый анализ вторичен. Потому я не знаю именно аналитических методов побороть это, но модели машинного обучения запросто учитывают подобные пердюмонокли. Проблема лишь в интерпретации результатов. Пока у меня готов именно топорный анализ признаков в вакууме. Извлечение признаков. Для анализа данных нужны признаки. Например, направленность фанфика - это признак. Позволю себе небольшое техническое отступление - если вам не интересно или не понятно, можете пропустить отступление (ниже будет написано "конец технического отступления" жирным шрифтом). Признаки бывают двух типов - числовые и категориальные. Это очень упрощённо. Числовые это числа - например количество страниц или частей. А вот категориальные - это жанры, пэйринги, статус работы и кучу всего. Проблема в том, что компьютеру плевать на все эти ваши Геты и Слэши, он понимает лишь сухие цифры и для работы с данными, нужно переводить категории в цифры. Есть два основных метода - можно просто пронумеровать категории, и заменить их соответствующими цифрами. Другой метод - One Hot - создать признак для каждой категории и пометить его нулём или единицей. То есть мы создаём признак - "является ли фанфик Гетом". И если он Гет - то там единица, а если Джен или Слэш - то ноль, и так для каждой категории. Каждый фанфик имеет кучу жанров, а потому пришлось воспользоваться именно One Hot методом, так как сочетания жанров для каждого фанфика в большинстве своём уникальны. Конец технической части

***

Жанры и предупреждения - жанры, метки и предупреждения по техническим причинам я объединил в одну категорию. Далее буду называть всё это просто жанры. Посмотрим что там получилось. Всего уникальных жанров 1982 в нашей выборке. Понятно, что анализировать каждый жанр бесполезно. Давайте посмотрим на самые часто используемые. Выведем ТОП-20 жанров, которые авторы чаще всего проставляют в своих работах. Справа будет количество работ, в которых данный жанр проставлен. [('AU', 10114), ('Романтика', 7201), ('ООС', 6594), ('Драма', 4991), ('Отклонения от канона', 4851), ('Нецензурная лексика', 4603), ('Hurt/Comfort', 3737), ('Ангст', 3597), ('Юмор', 3026), ('Фэнтези', 3019), ('Повседневность', 2993), ('Флафф', 2761), ('Счастливый финал', 2671), ('ОЖП', 2663), ('Частичный ООС', 2492), ('Дружба', 2333), ('Магия', 2238), ('Драббл', 2133), ('Волшебники / Волшебницы', 2090), ('Смерть второстепенных персонажей', 2069)] Тут картина примерно та же На самом деле, это в топе цифры красивые. Медианно значение частоты использования жанра - 10. Т.е. половина жанров используется только в 10 или меньше фанфиках. Далее я проанализировал влияние самых популярных жанров на количество лайков. Для этого я считал медианное количество лайков для всех работ с данным жанром и без него и вычитал из первого второе. Если число получается положительное - значит медиана фанфика с жанром больше медианы фанфика без жанра и этот жанр хорошо сказывается на популярности. Если отрицательная - то наоборот. Конечно, это вывод не гарантированный - я уже писал про нелинейность. То есть, теоретически возможно, что какой-то популярный жанр не добавляет сам по себе популярности, но он очень часто идёт рука об руку с чем-то, что добавляет её, но в целом, анализ отражает влияние жанров. Тут есть нюанс. Допустим, у нас есть жанр, который используется только в 10 работах. Можно посчитать его влияние на популярность, но данные окажутся очень неточными, так как что-то говорить о закономерности на таком малом объёме нельзя. Потому я сделал так - выбрал жанры, которые используются хотя бы в 400 фанфиках (число подбиралось интуитивно), а все остальные жанры обозвал "другие", и в анализе влияния конкретных жанров они не участвовали. Жанры, понижающие популярность фанфика Напомню, что под влиянием жанра я подразумеваю разницу медианы количества лайков для фанфика с жанром и без, то есть оцениваю обычные работы, без выбросов. Если смотреть на среднее - то картина иная, но на среднее может влиять несколько мега-популярных авторов. Таблица читается так: сначала идёт само название жанра, затем его влияние на популярность фанфика и в конце общее число работ с данным жанром. НАЗВАНИЕ ЖАНРА | ВЛИЯНИЕ НА ПОПУЛЯРНОСТЬ | ОБЩЕЕ ЧИСЛО РАБОТ С ЖАНРЕ ________________________________________

name median_diff count zero -33.0 416 Смерть основных персонажей -22.0 1304 Пропущенная сцена -20.0 654 Намеки на отношения -19.0 467 ОЖП -15.0 2663 Драббл -14.0 2133 Ведьмы / Колдуны -12.0 668 Времена Мародеров -9.0 1013 Курение -9.0 1335 Открытый финал -7.0 872 Упоминания смертей -7.0 945 Алкоголь -6.0 1377 Фэнтези -6.0 3019 Повествование от первого лица -6.0 1254 Повседневность -3.0 2992 Любовь/Ненависть -2.0 1642 Дружба -2.0 2333 Подростки -1.0 623 Драма 0.0 4991 Стёб 0.0 754

Есть некоторые изменения. Но общая картина та же Вот такая вот кривоватая таблица получилась. Жанр zero, который на первом месте по негативному влиянию, это отсутствие жанра, то есть автор в своём фанфике не указал никаких жанров. Не любят читатели смерть основных персонажей и курение... Посмотрим теперь на самые популярные среди читателей жанры (спойлер - здесь всё очень грустно). Выведем ТОП-20. НАЗВАНИЕ ЖАНРА | ВЛИЯНИЕ НА ПОПУЛЯРНОСТЬ | ОБЩЕЕ ЧИСЛО РАБОТ С ЖАНРЕ

name median_diff count Анальный секс 110.0 499 PWP 92.0 973 Слоуберн 86.5 916 Дамбигад 81.0 783 Рейтинг за секс 77.0 1893 Стимуляция руками 76.0 471 Минет 64.0 721 Хронофантастика 62.0 761 Эпилог? Какой эпилог? 59.0 754 Первый раз 58.0 778 Попаданчество 54.5 1250 Серая мораль 53.0 978 Развитие отношений 53.0 794 Разница в возрасте 50.0 625 ПостХог 49.0 1831 Счастливый финал 46.0 2671 Неозвученные чувства 46.0 518 От врагов к возлюбленным 42.0 819 Элементы флаффа 39.0 716 Underage 38.0 939

Картина в целом не изменилась Вот причина, по которой я повысил рейтинг своей статье. Казалось бы, это сухой разбор, в нём нет место жестокости и сексу, но жестокость и секс доберутся до моей статьи сами! Гипотеза о том, что фэндом Поттервёрса держится на порнухе подтвердилась. И лично моя гипотеза о том, что то, что не порнуха - держится на Дамбигадах и Попаданцах, тоже. С другой стороны, имеет смысл посмотреть и на средние значения. Выше я смотрел именно на медианы - то есть, с учётом средненьких работ.

***

Давайте посмотрим на средние показатели для всей выборки, не так внимательно. Жанры, отрицательно сказывающиеся на популярности:

name mean_diff count zero -122.566758 416 Смерть основных персонажей -75.885699 1304 Намеки на отношения -72.771941 467 Времена Мародеров -69.437115 1013 Открытый финал -68.972516 872 Драббл -64.985898 2133 Пропущенная сцена -59.607808 654 Курение -36.687991 1335 Флафф -31.821556 2761 Алкоголь -23.966530 1377 ОЖП -23.878011 2663 Упоминания смертей -21.867205 945 AU: Без магии -21.568627 698 Повседневность -14.279112 2992 Романтика -7.014250 7200 Ведьмы / Колдуны -6.748292 668 Упоминания курения -5.084519 529

И жанры положительно сказывающиеся на популярности:

name mean_diff count Попаданчество 279.823860 1250 Слоуберн 257.484161 916 Дамбигад 194.080057 783 Серая мораль 170.866634 978 Хронофантастика 165.052289 761 Экшн 158.942676 726 Элементы гета 158.425569 1277 Рейтинг за секс 155.837612 1893 Вымышленные существа 154.517059 805 Underage 142.221877 939 Смерть второстепенных персонажей 137.650007 2069 Второстепенные оригинальные персонажи 136.826402 625 Первый раз 136.636667 778 Приключения 135.183310 871 ОМП 124.111954 1160 Неозвученные чувства 123.603363 518 Магический реализм 123.115428 500 Мистика 123.032576 537 PWP 120.075191 973 Развитие отношений 119.544290 794

***

Немного поменялись позиции в топе, но картина остаётся похожей Есть ещё один аспект, важный для анализа. Как вы понимаете, хороших работ всегда мало. По всем работам медианное количество лайков 41 и среднее 185 (за счёт как раз самых популярных работ). Однако, чтобы понять что нравится читателям, имеет смысл проанализировать как раз более популярные работы. Потому посмотрим на жанры для более или менее популярных работ. Я сделал так: выбрал 20% самых популярных работ и очистил датасет от всех остальных. Минимальное количество лайков выходит 201. Так как данных стало значительно меньше, я выбрал минимальное количество фанфиков жанра, чтобы считать жанр "популярным" 100. Картина с жанрами (да и не только) действительно изменилась. Глянем сначала на самые популярные жанры среди авторов: [('AU', 2404), ('ООС', 1690), ('Романтика', 1455), ('Отклонения от канона', 1184), ('Нецензурная лексика', 1089), ('Драма', 996), ('Hurt/Comfort', 863), ('Счастливый финал', 805), ('Ангст', 762), ('Юмор', 716), ('Рейтинг за секс', 708), ('Фэнтези', 643), ('Частичный ООС', 582), ('ПостХог', 576), ('Смерть второстепенных персонажей', 563), ('Повседневность', 546), ('Флафф', 522), ('Магия', 494), ('Дружба', 493), ('Насилие', 490)] Картина похожа на то, что было Тут, в целом, картина похожа на предыдущую, что логично. А что насчёт народной любви к жанрам? Также будем смотреть на медиану, но теперь выбираем из более или менее хороших работ. Выведем сначала жанры, плохо влияющие на популярность:

name median_diff count AU: Без магии -96.0 154 Времена Мародеров -90.0 155 Малфоигуд -71.0 104 Анальный секс -51.0 201 Элементы ангста -48.0 219 Согласование с каноном -47.0 119 Открытый финал -46.0 104 Упоминания алкоголя -37.5 186 Эпилог? Какой эпилог? -35.0 249 Флафф -30.5 522 Курение -30.0 228 Упоминания курения -28.5 118 Влюбленность -28.0 129 Здоровые отношения -27.5 112 Упоминания смертей -27.0 175 Романтика -26.5 1454 Повседневность -26.0 545 Разница в возрасте -23.0 201 Уизлигады -22.0 165 Психологические травмы -22.0 170

В отрицательном съехали сексуальные жанры (кроме анального секса). Более того, некоторые из них появились в положительном. Отсутствие жанра входит - так как я специально сделал, чтобы оно всегда было, даже если не попадает в "популярные" жанры. И среднее:

name mean_diff count AU: Без магии -207.835393 154 zero -207.630338 35 Времена Мародеров -198.253675 155 Анальный секс -180.969258 201 Флафф -136.003215 522 Стимуляция руками -117.773209 169 Упоминания алкоголя -117.233674 186 От друзей к возлюбленным -114.546748 161 Упоминания курения -102.433880 118 Малфоигуд -99.683438 104 Эпилог? Какой эпилог? -97.795335 249 Влюбленность -95.878523 129 PWP -93.660298 374 Минет -86.847436 246 ПостХог -78.229648 576 Частичный ООС -74.847212 582 Элементы флаффа -66.845387 216 Забота / Поддержка -66.577905 135 Романтика -66.051645 1454 Открытый финал -63.755906 104

В среднем по-прежнему сексуальные тэги сказываются отрицательно Как видим, тут ситуация меняется - разные сексуальные тэги напротив, начинают хуже сказываться на популярности. Что ж, для человечества ещё не всё потеряно. Посмотрим, какие жанры повышают популярность популярных фанфиков (простите за тавтологию). Медиана:

name median_diff count Мэри Сью (Марти Стью) 237.5 140 Попаданцы: В чужом теле 201.5 140 Попаданчество 186.0 455 Экшн 158.0 211 Кроссовер 151.0 117 Мистика 125.0 134 Приключения 119.5 242 Вымышленные существа 112.5 248 ОМП 112.0 288 Убийства 108.0 203 Рейтинг за насилие и/или жестокость 105.0 111 Неторопливое повествование 103.0 153 Сексуальная неопытность 96.5 104 Манипуляции 94.0 111 Фэнтези 93.0 643 Нелинейное повествование 91.5 102 Кровь / Травмы 88.0 106 Элементы драмы 88.0 131 Смерть второстепенных персонажей 86.0 563 Драббл 81.5 268 Мэри Сью, попаданцы и кроссоверы рулят. Сексуальные теги внизу, не попали в топ, но они не сильно влияют, в основном. И среднее: <right> name mean_diff count Мэри Сью (Марти Стью) 557.890964 140 Попаданчество 441.262663 455 ОМП 358.332918 288 Мистика 353.076953 134 Второстепенные оригинальные персонажи 326.894730 166 Экшн 324.285008 211 Попаданцы: В чужом теле 321.528832 140 Магический реализм 310.046918 129 Смерть второстепенных персонажей 299.803190 563 Подростки 284.280994 120 Приключения 269.698395 242 Убийства 268.277916 203 Элементы гета 256.311386 392 Фэнтези 244.270525 643 Слоуберн 243.004377 374 Вымышленные существа 237.243842 248 Кроссовер 234.716176 117 Учебные заведения 206.493064 401 Насилие 205.307952 490 Нездоровые отношения 193.500920 126

Вывод: для всех фанфиков наиболее популярные жанры - всякие фетиши и порно, но если рассматривать выборку именно хороших фанфиков, то всё выходит несколько иначе. Правда, старые добрые Попаданцы народом всегда ценимы. Запланированное: Я решил, что статья и так довольно большая, так что Пэйринги и персонажи будут анализироваться в следующих частях. Фактически это уже сделано, но мне нужно немного времени, чтобы написать свои выводы в данную статью. Также проанализированы некоторые другие признаки, о которых я забыл в прошлый раз - более простые, с точки зрения программного кода. Также, до того, как перейти к более подробному анализу (распределению и т.п.), я опишу результаты анализа тех признаков, которые я уже анализировал, но только для популярных фанфиков. Пишите свои предложения, замечания, комментарии - критика приветствуется.
Примечания:
Отношение автора к критике
Приветствую критику в любой форме, укажите все недостатки моих работ.
Права на все произведения, опубликованные на сайте, принадлежат авторам произведений. Администрация не несет ответственности за содержание работ.