python

21 篇文章
数据分析-08PyEcharts 数据可视化

数据分析-08PyEcharts 数据可视化

PyEcharts是ECharts的Python封装,用于生成交互式图表,支持缩放、提示、切换等丰富交互。文章系统介绍了基础图表(Line折线图、Bar柱状图、Pie饼图、Scatter散点图、HeatMap热力图)和高级图表(Radar雷达图、WordCloud词云、Gauge仪表盘、Liquid水球图、Sunburst旭日图、EffectScatter涟漪散点图)。重点讲解了组合组件:Grid网格布局通过百分比定位实现多图表精确布局并避免重叠,Page分页展示、Tab标签页切换、Timeline时间线动画。此外还涵盖样式配置(LabelOpts、ItemStyleOpts、LineStyleOpts)、内置主题(LIGHT、DARK、MACARONS等)以及DataZoom数据区域缩放组件。文章强调通过Grid的pos_top/bottom/left/right参数控制图表位置,确保不重叠。核心目的是帮助用户掌握PyEcharts实现专业交互式可视化。

数据分析-07房地产市场数据分析报告

数据分析-07房地产市场数据分析报告

该报告对房地产房源数据进行全面分析,揭示房价影响因素与市场分布特征。房价整体呈右偏分布,多数房源集中在中低价位。核心影响因素中,面积与房价呈最强正相关,楼龄为负相关。城市差异显著,直辖市相比非直辖市存在约27%的溢价。高价房源普遍面积更大、楼龄更新、南北通透朝向具有溢价效应,三室户型为市场主流且相比两室溢价约20%。分析涵盖数据清洗、特征工程、描述性统计、相关性分析等多环节,为理解房地产市场提供了数据支撑。

数据分析-06Seaborn 数据可视化

数据分析-06Seaborn 数据可视化

Seaborn是基于Matplotlib的高级统计可视化库,提供简洁API和美观默认样式,底层仍调用Matplotlib绘图函数。文章以企鹅数据集为实例,系统介绍了Seaborn的主要图表类型:分布图表(histplot、kdeplot、rugplot)、计数图表(countplot、barplot)、关系图表(scatterplot、jointplot、pairplot)、分类图表(boxplot、violinplot)以及热力图(heatmap)。每种图表均给出核心函数及其用途,并展示了样式与配色控制函数(set_style、set_palette)。通过综合案例分析,演示如何利用Seaborn进行多变量关系探索和指标对比。文章最后提供了核心函数速查表,帮助用户快速选用合适的图表进行数据分析。

数据分析-04Pandas 数据分析实战

数据分析-04Pandas 数据分析实战

Pandas是数据分析的核心工具,支持CSV、JSON、Excel等多种格式的数据导入导出,并提供读取参数如parse_dates、usecols等。缺失值处理是数据清洗的重要环节,包括使用isna()检测、dropna()删除、fillna()填充(可用均值、前后向填充等),以及interpolate()插值。时间数据处理涵盖Timestamp创建、to_datetime转换、dt访问器提取日期属性、date_range生成时间序列,以及resample进行重采样聚合。数据类型转换通过astype实现,map可用于映射转换。数据分箱分为等距分箱(pd.cut)和等量分箱(pd.qcut),将连续变量离散化。字符串处理通过str属性进行分割、正则提取、替换等操作。重复值可用duplicated检测并用drop_duplicates删除。特征工程包括列重命名、索引设置、分组聚合(groupby)及新特征构造。综合案例展示了企鹅数据集和睡眠数据集的完整清洗、特征构造与统计分析流程。掌握这些技能可独立完成大部分数据分析任务。

数据分析-03Pandas DataFrame 完全指南

数据分析-03Pandas DataFrame 完全指南

Pandas的DataFrame是二维标记表格数据结构,类似Excel或SQL表,由行索引、列名和数据值组成。创建常用字典方式,支持指定列顺序。核心属性包括index、columns、shape、dtypes、values和T。数据访问可通过列名(单列或多列)、行标签(loc)和位置(iloc),at/iat快速访问单个元素。布尔索引实现条件筛选,支持多条件组合。缺失值用isna检测、dropna删除、fillna填充;重复值用duplicated检测、drop_duplicates删除。数值替换用replace。统计方法涵盖sum、mean、median、describe等,支持累积计算(cumsum等)。排序用sort_values,可单列或多列。类型转换用astype。数据变形包括melt(宽表转长表)和pivot(长表转宽表),字符串分割用str.split。分组聚合通过groupby分组,结合agg应用多个聚合函数。案例实战展示了学生成绩分析、销售分析和电商用户行为分析。掌握这些技能可高效完成数据分析任务。

数据分析-02Pandas Series 入门教程

数据分析-02Pandas Series 入门教程

Pandas是Python数据分析核心库,Series是其最基本的一维数据结构,类似带索引的NumPy数组,包含索引(index)和数据值(values)。Series可通过列表、字典或自定义索引创建,具有index、values、dtype、shape、ndim、size、name等属性。索引方式包括显式索引(loc)、隐式索引(iloc)和快速访问(at/iat),布尔索引是强大筛选工具。Series支持标量运算、元素级运算及自动索引对齐。内置丰富方法实现描述性统计(sum、mean、describe)、缺失值处理(isna、dropna、fillna)、排序、去重、替换、成员资格判断、应用函数、累计计算和变化率分析。实战示例涵盖学生成绩、温度、股票价格和销售数据分析,体现Series在数据分析中的高效性和灵活性。核心要点是掌握Series的创建、索引、运算及数据处理方法。

数据分析-01NumPy科学计算

数据分析-01NumPy科学计算

NumPy是Python科学计算的基础库,其核心是高性能的多维数组对象ndarray。该对象通过向量化运算和连续内存存储实现高效计算,速度比Python列表快50-100倍。ndarray具有多维性(标量到高维)、同质性(元素类型一致)和高效性三大特性。文章详细介绍了数组的创建方法(如zeross、arange、随机生成)、常用属性(shape、dtype、ndim等)、丰富的数据类型系统,以及强大的索引与切片功能(布尔索引、花式索引)。运算方面涵盖标量运算、数组间运算、广播机制和矩阵乘法。NumPy提供了全面的数学函数(三角函数、取整等)、统计函数(sum、mean、std等)、比较与逻辑函数、排序去重、数组拼接分割变形等操作,并支持缺失值(nan)处理。掌握NumPy是学习Pandas和数据处理的重要基础。

Python学习-14协程

Python学习-14协程

协程是一种运行在线程内部的用户态任务调度机制,通过事件循环在I/O等待时挂起当前任务并恢复其他任务,从而避免CPU空转,提升线程利用率。它并非线程或进程,不依赖内核调度,也不能自动利用多核,特别适合网络请求、爬虫等I/O密集型场景。Python中,`async def`定义协程函数,调用返回协程对象,必须交由事件循环(如`asyncio.run()`)执行。`await`用于挂起协程并等待可等待对象完成,但真正的并发需通过`asyncio.create_task()`将协程注册为任务,或用`asyncio.gather()`批量执行。协程不适合CPU密集型计算;常见误区包括将协程等同于线程、认为定义即执行、在协程内使用阻塞函数等。

Python学习-13进程与线程

Python学习-13进程与线程

并发编程是现代软件开发的基础能力,文章系统梳理了Python中进程与线程的核心概念与实践方法。关键要点包括:并发强调任务交替推进,并行强调同时执行;同步/异步描述任务等待关系而非CPU核心数。进程是资源分配基本单位,线程是CPU调度基本单位,进程间内存独立,线程共享进程资源。Python通过`multiprocessing.Process`和`threading.Thread`创建执行单元,需使用`Lock`/`RLock`保护临界区,`join()`等待子进程,`terminate()`强制终止。进程间通信依赖`Queue`和`Pipe`,变量默认不共享。进程池和线程池(`concurrent.futures`)可高效管理批量任务。CPython的GIL导致多线程在CPU密集型任务中无法真正并行,因此CPU密集型优先多进程,I/O密集型优先多线程。理解这些概念并根据任务类型、资源开销和稳定性需求选择合适模型,是并发编程的核心能力。

Python学习-12文件操作

Python学习-12文件操作

Python文件操作是编程基础,涉及文件本质(文本文件依赖编码,二进制文件依赖格式)、路径(绝对与相对)、open()函数及多种模式(r/w/x/a/b/t/+)。读取方式包括read()、readline()、readlines()和for循环遍历,推荐用with上下文管理器确保资源自动释放。写入时需注意覆盖(w)、追加(a)或排它创建(x)的区别;flush()可强制落盘。组合模式(r+/w+/a+等)配合seek()实现读写一体。目录操作通过os和shutil模块实现创建、删除、遍历。核心建议:文本文件指定UTF-8编码,大文件逐行或分块读取,二进制文件用b模式,操作前确认覆盖风险,优先使用with。掌握这些为数据处理、自动化等高级应用打下基础。