dataframe - 爱搜

发表于 2025-10-24 streamlit 瑞士军刀 matplotlib

st.write()是Streamlit的瑞士军刀，你可以把任何东西丢给st.write()：文本、数据、Matplotlib图表、Altair图表等等。别担心，Streamlit可以自动识别数据类型并正确绘制。 Streamlit也提供了针对特定类型数据的方法例如st.dataframe()和st.table()，你也可以用这些更专门化的方法来显示数据

series的打印效果，让我们感觉它像个二维表格

发表于 2025-09-11 iloc dataframe pandas

Series的打印效果，让我们感觉它像个二维表格，实际上它还是一维的，其索引和numpy的一维数组比较类似，但还是有点区别的。注意：如果你的Series是显式的整数索引，那么s[1]这样的取值操作会使用显式索引，而s[1:3]这样的切片操作却会使用隐式索引。Pandas开发人员在历史中为这种问题头疼不已，但没办法，现在还是这么混乱

我在 scikit-learn 的官网上看到除了讲义及补充资

发表于 2025-08-01 lableencoder scikit labelencoder

我在 scikit-learn 的官网上看到除了讲义及补充资料外的编码方式 OrdinalEncoder，从操作上，我不太能够分辨 preprocessing.LabelEncoder 与 preprocessing.OrdinalEncoder 的差异。从其他网站上查到的资料是说 LabelEncoder 是对标签编码，OrdinalEncoder 则是对特征编码，想了解标签及特征在dataframe的差异。另外想请问在进行 LableEncoder时，如何自订编码的顺序，例如小孩、年轻⼈、老⼈，标示为 0 1 2，那如果我想改将小孩、老⼈、年轻⼈、分别标示为 0 1 2，该如何处理

spark读取文本文件并转换为dataframe spark

发表于 2025-07-22 resilient rdd dataset

Spark读取文本文件并转换为DataFrame Spark ML里的核心API已经由基于RDD换成了基于DataFrame，为了使读取到的值成为DataFrame类型，我们可以直接使用读取CSV的方式来读取文本文件，可问题来了，当文本文件中每一行的各个数据被不定数目的空格所隔开时，我们无法将这些不定数目的空格当作CSV文件的分隔符（因为Spark 基于Spark的学生成绩分析系统本文是本人硕士期间云计算课程的一次大作业，所以可能部分内容有充字数的嫌疑，还望各位看官无视。 Spark RDD的简单使用 RDD(Resilient Distributed Dataset)即弹性分布式数据集。RDD是Spark的核心，在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值

copy 它是一个布林值

发表于 2025-09-12 dataframes dataframe 转置

copy 它是一个布林值。它决定 DataFrame 的值在进行转置后是否会被复制。预设情况下，它的值是 False

今天我们将一个 series 序列数据转为 datafram

发表于 2025-10-12 reshape 第二列分划

今天我们将一个 Series 序列数据转为 DataFrame结构。我们将用么 pd.cut() 对数据进行分箱，也会用到 NumPy 的 np.reshape() 对阵列数据进行变形。接下来我们看看具体的需求，再分析一下解决思路，最后用代码实现它

qingcloud 对比1.4.1 1.5

发表于 2025-08-01 graphx qingcloud dataframe

QingCloud 对比1.4.1 1.5.0 增加了 1400+ 个代码提交，主要的变化包括 DataFrame/SQL 执行后端优化，使得性能得到很大提高，详情请见 [URL]。机器学习增加了更多的算法，对以前版本的算法做了改进，并且机器学习开始从library转向构建一个机器学习工作流 Pipeline 的系统。同时在 Streaming 和 Graphx 方面也有非常大的改进

同事推荐给我一本书，并热心地借给我看，机会难得

发表于 2025-10-04 seaborn matplotlib dataframe

同事推荐给我一本书，并热心地借给我看，机会难得，终于翻了一遍，对于编程类的书籍，眼高手低是通病，于是我跟着书本敲了一遍代码，有的有报错，经过搜索解决了。有的搜索也没解决的，可能是包的版本问题，或者代码出现了小错误，欢迎批评指正！本书是Python数据分析入门书，每个概念都通过简单实例来阐述，便于读者理解与上手。具体内容包括：Python及Pandas基础知识，加载和查看数据集，Pandas的DataFrame对象和Series对象，使用matplotlib、seaborn和Pandas提供的绘图方法为探索性数据分析作图，连接与合并数据集，处理缺失数据，清理数据，转换数据类型，处理字符串，应用函数，分组操作，拟合及评估模型，正则化方法与聚类技术等