06Python学习笔记——外部文本数据的读取

976 阅读2分钟

「这是我参与11月更文挑战的第6天,活动详情查看:2021最后一次更文挑战」。

如果需要使用Python读取txt或csv格式的数据,可以使用pandas模块中的read_table函数或read_csv函数。这里的“或”并不是指每个函数智能读取一种格式的数据,二是这两种哈数均可以读取文本文件的数据。由于这两个函数在功能和参数使用上类似,因此这里锦衣read_table函数为例,介绍该函数的用法和几个重要参数的含义。

filepath_or_buffer:指定txt文件或csv文件所在的具体路径。

sep:指定原始数据集中各字段之间的分隔符,默认为Tab制表符。

header:是否需要将原始数据集中的第一行作为表头,默认将第一行作为字段名称。

names:如果原数据集中没有字段,可以通过改参数在数据读取时给数据框添加具体的表头。 index_col:指定原数据集中的某些列作为数据框的航索引(标签)。

usecols:指定需要读取元数据集中的哪些变量名。

dtype:读取数据时,可以为原始数据集的每个字段设置不同的数据类型。

converters:通过字典格式,为数据集中的某些字段设置转换函数。

skiprows:数据读取时,指定需要跳过原数据集开头的行数。

skipfooter:读取数据时,指定需要跳过原数据集末尾的行数。

nrows:指定读取数据的行数。

na_values:指定原数据集中哪些特征的值作为缺失值。

skip_blank_lines:读取数据时是否需要跳过原数据集中的空白行,默认为True.

parse_dates:如果参数值为True,则尝试解析数据框的行索引;如果参数为列表则尝试解析对应的日期列;如果参数为嵌套列表,则将某些列合并为日期列;如果参数为字典,则解析对应的列(字典中的值),并生成新的字段名(字典中键)。

thousands:指定原始数据集中的千分位符。

comment:指定注释符,在读取数据时,如果碰到行首指定的注释符,则跳过该行。

encoding:如果文件中有中文,有时需要指定字符编码。