六小时之外

数据分析-08PyEcharts 数据可视化

PyEcharts是ECharts的Python封装，用于生成交互式图表，支持缩放、提示、切换等丰富交互。文章系统介绍了基础图表（Line折线图、Bar柱状图、Pie饼图、Scatter散点图、HeatMap热力图）和高级图表（Radar雷达图、WordCloud词云、Gauge仪表盘、Liquid水球图、Sunburst旭日图、EffectScatter涟漪散点图）。重点讲解了组合组件：Grid网格布局通过百分比定位实现多图表精确布局并避免重叠，Page分页展示、Tab标签页切换、Timeline时间线动画。此外还涵盖样式配置（LabelOpts、ItemStyleOpts、LineStyleOpts）、内置主题（LIGHT、DARK、MACARONS等）以及DataZoom数据区域缩放组件。文章强调通过Grid的pos_top/bottom/left/right参数控制图表位置，确保不重叠。核心目的是帮助用户掌握PyEcharts实现专业交互式可视化。

2026-05-09 数据分析 19

meytao

数据分析-07房地产市场数据分析报告

该报告对房地产房源数据进行全面分析，揭示房价影响因素与市场分布特征。房价整体呈右偏分布，多数房源集中在中低价位。核心影响因素中，面积与房价呈最强正相关，楼龄为负相关。城市差异显著，直辖市相比非直辖市存在约27%的溢价。高价房源普遍面积更大、楼龄更新、南北通透朝向具有溢价效应，三室户型为市场主流且相比两室溢价约20%。分析涵盖数据清洗、特征工程、描述性统计、相关性分析等多环节，为理解房地产市场提供了数据支撑。

2026-05-09 数据分析 22

meytao

数据分析-06Seaborn 数据可视化

Seaborn是基于Matplotlib的高级统计可视化库，提供简洁API和美观默认样式，底层仍调用Matplotlib绘图函数。文章以企鹅数据集为实例，系统介绍了Seaborn的主要图表类型：分布图表（histplot、kdeplot、rugplot）、计数图表（countplot、barplot）、关系图表（scatterplot、jointplot、pairplot）、分类图表（boxplot、violinplot）以及热力图（heatmap）。每种图表均给出核心函数及其用途，并展示了样式与配色控制函数（set_style、set_palette）。通过综合案例分析，演示如何利用Seaborn进行多变量关系探索和指标对比。文章最后提供了核心函数速查表，帮助用户快速选用合适的图表进行数据分析。

2026-05-09 数据分析 16

meytao

数据分析-05Matplotlib 数据可视化

Matplotlib是Python生态中最基础的可视化库，能创建折线图、柱状图、饼图、散点图、箱线图、直方图等主流图表。教程系统介绍了图表类型选择原则：折线图展示趋势，柱状图比较类别，饼图反映比例，散点图探索关系，箱线图显示分布与异常值。核心工具是pyplot模块与全局配置rcParams，前者提供绘图函数，后者用于设置默认样式（如字体、图形尺寸）。各图表绘制函数均支持丰富的自定义参数，包括颜色、标记、线型、标签等。此外，通过subplots和subplot2grid可实现规则与不规则组合图；标题、标签、图例、网格等辅助函数用于完善图表；rcParams可统一配置样式，savefig支持多种格式导出。教程还提供了天气数据综合分析的实战案例，并附核心函数速查表，强调将可视化应用于实际数据分析。

2026-05-09 Python学习笔记 21

meytao

数据分析-04Pandas 数据分析实战

Pandas是数据分析的核心工具，支持CSV、JSON、Excel等多种格式的数据导入导出，并提供读取参数如parse_dates、usecols等。缺失值处理是数据清洗的重要环节，包括使用isna()检测、dropna()删除、fillna()填充（可用均值、前后向填充等），以及interpolate()插值。时间数据处理涵盖Timestamp创建、to_datetime转换、dt访问器提取日期属性、date_range生成时间序列，以及resample进行重采样聚合。数据类型转换通过astype实现，map可用于映射转换。数据分箱分为等距分箱（pd.cut）和等量分箱（pd.qcut），将连续变量离散化。字符串处理通过str属性进行分割、正则提取、替换等操作。重复值可用duplicated检测并用drop_duplicates删除。特征工程包括列重命名、索引设置、分组聚合（groupby）及新特征构造。综合案例展示了企鹅数据集和睡眠数据集的完整清洗、特征构造与统计分析流程。掌握这些技能可独立完成大部分数据分析任务。

2026-05-09 数据分析 21

meytao

数据分析-03Pandas DataFrame 完全指南

Pandas的DataFrame是二维标记表格数据结构，类似Excel或SQL表，由行索引、列名和数据值组成。创建常用字典方式，支持指定列顺序。核心属性包括index、columns、shape、dtypes、values和T。数据访问可通过列名（单列或多列）、行标签（loc）和位置（iloc），at/iat快速访问单个元素。布尔索引实现条件筛选，支持多条件组合。缺失值用isna检测、dropna删除、fillna填充；重复值用duplicated检测、drop_duplicates删除。数值替换用replace。统计方法涵盖sum、mean、median、describe等，支持累积计算（cumsum等）。排序用sort_values，可单列或多列。类型转换用astype。数据变形包括melt（宽表转长表）和pivot（长表转宽表），字符串分割用str.split。分组聚合通过groupby分组，结合agg应用多个聚合函数。案例实战展示了学生成绩分析、销售分析和电商用户行为分析。掌握这些技能可高效完成数据分析任务。

2026-05-09 数据分析 16

meytao

数据分析-02Pandas Series 入门教程

Pandas是Python数据分析核心库，Series是其最基本的一维数据结构，类似带索引的NumPy数组，包含索引（index）和数据值（values）。Series可通过列表、字典或自定义索引创建，具有index、values、dtype、shape、ndim、size、name等属性。索引方式包括显式索引（loc）、隐式索引（iloc）和快速访问（at/iat），布尔索引是强大筛选工具。Series支持标量运算、元素级运算及自动索引对齐。内置丰富方法实现描述性统计（sum、mean、describe）、缺失值处理（isna、dropna、fillna）、排序、去重、替换、成员资格判断、应用函数、累计计算和变化率分析。实战示例涵盖学生成绩、温度、股票价格和销售数据分析，体现Series在数据分析中的高效性和灵活性。核心要点是掌握Series的创建、索引、运算及数据处理方法。

2026-05-09 数据分析 12

meytao

数据分析-01NumPy科学计算

NumPy是Python科学计算的基础库，其核心是高性能的多维数组对象ndarray。该对象通过向量化运算和连续内存存储实现高效计算，速度比Python列表快50-100倍。ndarray具有多维性（标量到高维）、同质性（元素类型一致）和高效性三大特性。文章详细介绍了数组的创建方法（如zeross、arange、随机生成）、常用属性（shape、dtype、ndim等）、丰富的数据类型系统，以及强大的索引与切片功能（布尔索引、花式索引）。运算方面涵盖标量运算、数组间运算、广播机制和矩阵乘法。NumPy提供了全面的数学函数（三角函数、取整等）、统计函数（sum、mean、std等）、比较与逻辑函数、排序去重、数组拼接分割变形等操作，并支持缺失值（nan）处理。掌握NumPy是学习Pandas和数据处理的重要基础。

2026-05-09 数据分析 13

meytao

Python学习-14协程

协程是一种运行在线程内部的用户态任务调度机制，通过事件循环在I/O等待时挂起当前任务并恢复其他任务，从而避免CPU空转，提升线程利用率。它并非线程或进程，不依赖内核调度，也不能自动利用多核，特别适合网络请求、爬虫等I/O密集型场景。Python中，`async def`定义协程函数，调用返回协程对象，必须交由事件循环（如`asyncio.run()`）执行。`await`用于挂起协程并等待可等待对象完成，但真正的并发需通过`asyncio.create_task()`将协程注册为任务，或用`asyncio.gather()`批量执行。协程不适合CPU密集型计算；常见误区包括将协程等同于线程、认为定义即执行、在协程内使用阻塞函数等。

2026-04-26 Python学习笔记 29

meytao

Python学习-13进程与线程

并发编程是现代软件开发的基础能力，文章系统梳理了Python中进程与线程的核心概念与实践方法。关键要点包括：并发强调任务交替推进，并行强调同时执行；同步/异步描述任务等待关系而非CPU核心数。进程是资源分配基本单位，线程是CPU调度基本单位，进程间内存独立，线程共享进程资源。Python通过`multiprocessing.Process`和`threading.Thread`创建执行单元，需使用`Lock`/`RLock`保护临界区，`join()`等待子进程，`terminate()`强制终止。进程间通信依赖`Queue`和`Pipe`，变量默认不共享。进程池和线程池（`concurrent.futures`）可高效管理批量任务。CPython的GIL导致多线程在CPU密集型任务中无法真正并行，因此CPU密集型优先多进程，I/O密集型优先多线程。理解这些概念并根据任务类型、资源开销和稳定性需求选择合适模型，是并发编程的核心能力。

2026-04-26 Python学习笔记 36

meytao