06Python学习笔记——外部文本数据的读取

「这是我参与11月更文挑战的第6天，活动详情查看：2021最后一次更文挑战」。

如果需要使用Python读取txt或csv格式的数据，可以使用pandas模块中的read_table函数或read_csv函数。这里的“或”并不是指每个函数智能读取一种格式的数据，二是这两种哈数均可以读取文本文件的数据。由于这两个函数在功能和参数使用上类似，因此这里锦衣read_table函数为例，介绍该函数的用法和几个重要参数的含义。

filepath_or_buffer:指定txt文件或csv文件所在的具体路径。

sep:指定原始数据集中各字段之间的分隔符，默认为Tab制表符。

header:是否需要将原始数据集中的第一行作为表头，默认将第一行作为字段名称。

names:如果原数据集中没有字段，可以通过改参数在数据读取时给数据框添加具体的表头。 index_col:指定原数据集中的某些列作为数据框的航索引（标签）。

usecols:指定需要读取元数据集中的哪些变量名。

dtype：读取数据时，可以为原始数据集的每个字段设置不同的数据类型。

converters:通过字典格式，为数据集中的某些字段设置转换函数。

skiprows:数据读取时，指定需要跳过原数据集开头的行数。

skipfooter:读取数据时，指定需要跳过原数据集末尾的行数。

nrows：指定读取数据的行数。

na_values:指定原数据集中哪些特征的值作为缺失值。

skip_blank_lines:读取数据时是否需要跳过原数据集中的空白行，默认为True.

parse_dates:如果参数值为True,则尝试解析数据框的行索引；如果参数为列表则尝试解析对应的日期列；如果参数为嵌套列表，则将某些列合并为日期列；如果参数为字典，则解析对应的列（字典中的值），并生成新的字段名（字典中键）。

thousands:指定原始数据集中的千分位符。

comment：指定注释符，在读取数据时，如果碰到行首指定的注释符，则跳过该行。

encoding:如果文件中有中文，有时需要指定字符编码。