
Концепция
Курение остаётся одним из наиболее модифицируемых факторов риска развития рака лёгких. Несмотря на глобальные кампании по снижению распространённости курения, миллионы людей по всему миру продолжают подвергать себя этому риску. При этом в публичном дискурсе эта тема часто подаётся фрагментарно и эмоционально, без опоры на долгосрочные данные.
В своём исследовании я анализирую глобальные статистические данные о связи между курением и раком лёгких в различных странах мира с 2000 по 2021 год. Датасет содержит информацию о более чем 220 000 людей из 25 государств. Такой временной и географический горизонт позволяет увидеть не только моментальные всплески, но и долгие траектории изменения этих показателей.
ДАТАСЕТ И МЕТОДОЛОГИЯ
Источник: Kaggle «Lung Cancer Risk in 25 Countries» Размер выборки: 220 632 индивида Временной охват: данные по 25 странам Переменные: статус курения, диагноз рака лёгких, количество сигарет в день, стаж курения, возраст, семейная история
Процесс анализа: • Загрузка и очистка данных в Pandas • Сегментация по статусу курения и диагнозу • Построение описательной статистики • Визуализация в Matplotlib с единой цветовой палитрой • Расчёт корреляций и сравнительных показателей
Инструменты: Python 3, Pandas, Matplotlib, Google Colab
ГЛАВНЫЕ РЕЗУЛЬТАТЫ АНАЛИЗА
✓ 4,06% людей в выборке имеют диагноз рака лёгких (8 961 из 220 632) ✓ 40% всех людей в выборке являются курильщиками (88 253 человека) ✓ Среди людей с раком лёгких 69,7% курят ✓ Среди людей без рака лёгких только 38,8% курят
ВЫВОД: Курильщики болеют раком в 1.8 раза чаще, чем некурящие люди.
Это не просто корреляция — это подтверждение медицинской гипотезы о причинно-следственной связи между курением и раком лёгких.
ОБРАБОТКА И ВИЗУАЛИЗАЦИЯ ДАННЫХ
Сначала я импортировал pandas, matplotlib.pyplot, matplotlib.rcParams и загрузил CSV-файл. Затем составил список всех агрегированных регионов и доходных групп, которые присутствуют в столбце Country Name. Этот список был передан в метод isin (), после чего строки с такими значениями были исключены из датасета. Это обеспечило корректность всех последующих группировок и сравнения именно между странами, а не между странами и «средними по миру» величинами.
Для подготовки данных я использовал простой цикл по списку Country Name и исключил все строки, где значение страны совпадало с агрегированными регионами. Это важно, потому что включение агрегированных данных исказило бы статистику и сделало бы невозможным корректное сравнение между отдельными государствами.
После этого я построил два набора диаграмм: один показывает статус курения в выборке (пирог), второй — прямое сравнение между курением и диагнозом рака лёгких.
ВЫБРАННЫЕ ТИПЫ ВИЗУАЛИЗАЦИЙ И ИХ ОБОСНОВАНИЕ
Столбчатая диаграмма (диагноз рака лёгких) — показывает абсолютное количество людей с раком и без него в выборке. Это базовое распределение даёт понимание масштаба проблемы.
Круговая диаграмма (статус курения) — демонстрирует распределение курильщиков и некурящих в выборке. Она позволяет увидеть долю в процентах и оценить, какая часть выборки подвергается риску.
Сравнительная столбчатая диаграмма (курение vs диагноз) — сравнивает долю курильщиков среди людей с раком и без рака. Такой формат удобен для сравнения ранжирования и выявления асимметрий в распределении.
Гистограмма (сигареты в день) — демонстрирует распределение интенсивности курения среди курильщиков. Она позволяет увидеть, где находится основная масса данных и есть ли выбросы с очень высокими значениями.
Такое сочетание позволяет однозначно поддержать и визуализировать тему проекта: связь между курением и раком лёгких однозначна, и статистика это подтверждает.

Первая диаграмма показывает базовое распределение людей в выборке по статусу диагноза рака лёгких. В нашем датасете 220 632 человека, из них подавляющее большинство (95.94%) не имеют диагноза, но 4.06% (8 961 человек) имеют подтверждённый рак лёгких.
Это количество достаточно для статистического анализа и выявления закономерностей в том, как эти люди распределяются по другим признакам, особенно по статусу курения.

Вторая диаграмма показывает распределение курильщиков и некурящих в нашей выборке. Примерно 40% людей в выборке указали, что они активно курят, а 60% указали, что не курят или отказались от курения.
Это соотношение отражает глобальные тенденции в распространённости курения в развитых и развивающихся странах. Но главный вопрос — распределено ли курение одинаково среди людей с раком и без рака? Этот вопрос рассматривается в следующей диаграмме.

Третья диаграмма показывает сравнение доли курильщиков между двумя группами: людьми с раком лёгких и людьми без рака. Это ключевой график, который визуализирует главный вывод проекта.
Результаты показывают резкую асимметрию: • Среди людей с раком лёгких: 69,7% курят • Среди людей без рака лёгких: 38,8% курят
Разница в 30.9 процентных пункта — это мощный сигнал о том, что курение и рак лёгких связаны не случайно, а через причинно-следственное отношение. Люди, которые курят, имеют в 1.8 раза выше риск развития рака лёгких.

Четвёртая диаграмма показывает распределение количества сигарет в день среди людей, которые курят в нашей выборке. Гистограмма позволяет увидеть, где концентрируется основная масса курильщиков по интенсивности курения.
Из графика видно, что большинство курильщиков потребляют от 10 до 20 сигарет в день — это примерно соответствует определению «стандартного курильщика» в медицине. Однако существует и значительное количество людей, которые курят 30+ сигарет в день.
Важно отметить: даже «лёгкое курение» (5–10 сигарет в день) связано с повышенным риском рака лёгких. Это подтверждает, что безопасного порога потребления табака не существует — любое количество сигарет повышает риск.
ИТОГОВЫЕ ВЫВОДЫ
На основе анализа 220 632 человек из 25 стран можно сделать следующие выводы:
1. МАСШТАБ ПРОБЛЕМЫ 4.06% людей в нашей выборке имеют диагноз рака лёгких. Это примерно 9 000 человек на каждый миллион, что соответствует глобальным эпидемиологическим данным.
2. РОЛЬ КУРЕНИЯ Среди людей с раком лёгких 69,7% курят. Среди людей без рака только 38.8% курят. Эта разница в 30.9 пункта указывает на сильную позитивную корреляцию.
3. ФАКТОР РИСКА Люди, которые курят, болеют раком в 1.8 раза чаще, чем некурящие. Это подтверждает медицинскую гипотезу о причинно-следственной связи.
4. ОТСУТСТВИЕ БЕЗОПАСНОГО ПОРОГА Даже курение 5–10 сигарет в день связано с повышением риска. Это важный вывод для профилактики.
5. ЗНАЧЕНИЕ ДОЛГОСРОЧНЫХ ДАННЫХ Анализ статистических данных за многие годы и по многим странам показывает, что выводы о вреде курения устойчивы и воспроизводимы независимо от географического контекста.
Этот проект демонстрирует, почему видение долгосрочных тенденций важнее отдельных свидетельств. Статистика говорит громче, чем личные истории или эмоциональные аргументы.
Для обложки проекта я использовал генеративную модель изображений Midjourney v.7, сформулировав промт в точной форме в виде проф фото: Realistic photograph, vertical 2:3 ratio. In the center of the frame lies a single used cigarette on dark wet asphalt. The cigarette is squashed, partially smoked, with bent paper and ash on the tip, no smoke, no fire. The asphalt texture is detailed with small stones and subtle reflections from soft overcast daylight. Background is slightly blurred, no people, no other objects, minimalistic composition. Mood is bleak and reflective, muted natural colors, high resolution.