六小时之外

数据分析-08PyEcharts 数据可视化

PyEcharts是ECharts的Python封装，用于生成交互式图表，支持缩放、提示、切换等丰富交互。文章系统介绍了基础图表（Line折线图、Bar柱状图、Pie饼图、Scatter散点图、HeatMap热力图）和高级图表（Radar雷达图、WordCloud词云、Gauge仪表盘、Liquid水球图、Sunburst旭日图、EffectScatter涟漪散点图）。重点讲解了组合组件：Grid网格布局通过百分比定位实现多图表精确布局并避免重叠，Page分页展示、Tab标签页切换、Timeline时间线动画。此外还涵盖样式配置（LabelOpts、ItemStyleOpts、LineStyleOpts）、内置主题（LIGHT、DARK、MACARONS等）以及DataZoom数据区域缩放组件。文章强调通过Grid的pos_top/bottom/left/right参数控制图表位置，确保不重叠。核心目的是帮助用户掌握PyEcharts实现专业交互式可视化。

2026-05-09 数据分析 19

meytao

数据分析-07房地产市场数据分析报告

该报告对房地产房源数据进行全面分析，揭示房价影响因素与市场分布特征。房价整体呈右偏分布，多数房源集中在中低价位。核心影响因素中，面积与房价呈最强正相关，楼龄为负相关。城市差异显著，直辖市相比非直辖市存在约27%的溢价。高价房源普遍面积更大、楼龄更新、南北通透朝向具有溢价效应，三室户型为市场主流且相比两室溢价约20%。分析涵盖数据清洗、特征工程、描述性统计、相关性分析等多环节，为理解房地产市场提供了数据支撑。

2026-05-09 数据分析 22

meytao

数据分析-06Seaborn 数据可视化

Seaborn是基于Matplotlib的高级统计可视化库，提供简洁API和美观默认样式，底层仍调用Matplotlib绘图函数。文章以企鹅数据集为实例，系统介绍了Seaborn的主要图表类型：分布图表（histplot、kdeplot、rugplot）、计数图表（countplot、barplot）、关系图表（scatterplot、jointplot、pairplot）、分类图表（boxplot、violinplot）以及热力图（heatmap）。每种图表均给出核心函数及其用途，并展示了样式与配色控制函数（set_style、set_palette）。通过综合案例分析，演示如何利用Seaborn进行多变量关系探索和指标对比。文章最后提供了核心函数速查表，帮助用户快速选用合适的图表进行数据分析。

2026-05-09 数据分析 16

meytao

数据分析-04Pandas 数据分析实战

Pandas是数据分析的核心工具，支持CSV、JSON、Excel等多种格式的数据导入导出，并提供读取参数如parse_dates、usecols等。缺失值处理是数据清洗的重要环节，包括使用isna()检测、dropna()删除、fillna()填充（可用均值、前后向填充等），以及interpolate()插值。时间数据处理涵盖Timestamp创建、to_datetime转换、dt访问器提取日期属性、date_range生成时间序列，以及resample进行重采样聚合。数据类型转换通过astype实现，map可用于映射转换。数据分箱分为等距分箱（pd.cut）和等量分箱（pd.qcut），将连续变量离散化。字符串处理通过str属性进行分割、正则提取、替换等操作。重复值可用duplicated检测并用drop_duplicates删除。特征工程包括列重命名、索引设置、分组聚合（groupby）及新特征构造。综合案例展示了企鹅数据集和睡眠数据集的完整清洗、特征构造与统计分析流程。掌握这些技能可独立完成大部分数据分析任务。

2026-05-09 数据分析 21

meytao

数据分析-03Pandas DataFrame 完全指南

Pandas的DataFrame是二维标记表格数据结构，类似Excel或SQL表，由行索引、列名和数据值组成。创建常用字典方式，支持指定列顺序。核心属性包括index、columns、shape、dtypes、values和T。数据访问可通过列名（单列或多列）、行标签（loc）和位置（iloc），at/iat快速访问单个元素。布尔索引实现条件筛选，支持多条件组合。缺失值用isna检测、dropna删除、fillna填充；重复值用duplicated检测、drop_duplicates删除。数值替换用replace。统计方法涵盖sum、mean、median、describe等，支持累积计算（cumsum等）。排序用sort_values，可单列或多列。类型转换用astype。数据变形包括melt（宽表转长表）和pivot（长表转宽表），字符串分割用str.split。分组聚合通过groupby分组，结合agg应用多个聚合函数。案例实战展示了学生成绩分析、销售分析和电商用户行为分析。掌握这些技能可高效完成数据分析任务。

2026-05-09 数据分析 16

meytao

数据分析-02Pandas Series 入门教程

Pandas是Python数据分析核心库，Series是其最基本的一维数据结构，类似带索引的NumPy数组，包含索引（index）和数据值（values）。Series可通过列表、字典或自定义索引创建，具有index、values、dtype、shape、ndim、size、name等属性。索引方式包括显式索引（loc）、隐式索引（iloc）和快速访问（at/iat），布尔索引是强大筛选工具。Series支持标量运算、元素级运算及自动索引对齐。内置丰富方法实现描述性统计（sum、mean、describe）、缺失值处理（isna、dropna、fillna）、排序、去重、替换、成员资格判断、应用函数、累计计算和变化率分析。实战示例涵盖学生成绩、温度、股票价格和销售数据分析，体现Series在数据分析中的高效性和灵活性。核心要点是掌握Series的创建、索引、运算及数据处理方法。

2026-05-09 数据分析 12

meytao

数据分析-01NumPy科学计算

NumPy是Python科学计算的基础库，其核心是高性能的多维数组对象ndarray。该对象通过向量化运算和连续内存存储实现高效计算，速度比Python列表快50-100倍。ndarray具有多维性（标量到高维）、同质性（元素类型一致）和高效性三大特性。文章详细介绍了数组的创建方法（如zeross、arange、随机生成）、常用属性（shape、dtype、ndim等）、丰富的数据类型系统，以及强大的索引与切片功能（布尔索引、花式索引）。运算方面涵盖标量运算、数组间运算、广播机制和矩阵乘法。NumPy提供了全面的数学函数（三角函数、取整等）、统计函数（sum、mean、std等）、比较与逻辑函数、排序去重、数组拼接分割变形等操作，并支持缺失值（nan）处理。掌握NumPy是学习Pandas和数据处理的重要基础。

2026-05-09 数据分析 13

meytao