首先通过Numpy的loadtxt方法读取数据文件。
然后使用Random库中的sample方法做数据抽样。
由于sample库要求抽取的对象是一个序列或set,因此这里使用了一个列表推导式直接基于data数据集的记录数生成索引列表,
然后再返回给sample随机抽样,抽样数量为2000;最后从data中直接基于索引获得随机抽样后的结果。
打印输出前2条数据和总抽样样本量。返回结果如下:
而这里的列表推导式的写法[i for i in range(len(data))]除了在语法上更加简洁和优雅外,在性能上同样会有提升。
我们通过如下实验做简单测试,对从0到1000000的每个数求平方然后添加到列表。两种方法如下:
上述代码执行后的输出结果分别是:
上面只是简单的计算逻辑并且数据量也不大,
深圳市多测师信息技术有限公司(以下简称:多测师)成立于2016年6月2018年成立广州分公司,2019年成立上海分公司。多测师是中国中小型综合性软件与信息服务企业,提供从咨询、解决方案、技术服务到IT人才培养的软件及信息服务。