经过路由,交换,安全,Qos四大典型技术模块同你分享网络运维中的技术难题,让老司机带你躲过网络运维常见的那些坑, 查看详情>>>
0
51CTO首页 技术频道 51CTO旗下网站 地图
CTO俱乐部 学院 论坛 博客 下载 更多

我的帖子

个人中央

设置

  发新话题
用 Python 将数据写到 CSV 文件

我们从网上爬取数据,最后一步会考虑如何存储数据。如果数据量不大,往往不会挑选存储到开户免费送彩金娱乐场,而是挑选存储到文件中,例如文本文件、CSV 文件、xls 文件等。由于文件具备携带方便、查阅直观。

Python 作为胶水语言,搞定这些当然不在话下。但在写数据过程中,常常因数据源中带有中文汉字而报错。最让人头皮发麻的编码问题。

我先说下编码相关的知识。编码方式有很多种:UTF-8, GBK, ASCII 等。

ASCII 码是美国在上个世纪 60 年代制定的一套字符编码。主如果规范英语字符和二进制位之间的关系。英语词汇组成简单,由 26 个字母构成。采用一个字节就能表示一个字母符号。外加各种符号,采用 128 个字符就满足编码要求。

不同国家有不同语言文字。同时,文字组成部分的数量相比英语字母要多很多。根据不完整统计,汉字的数量也许将近 10 万个,日常所采用的汉字有 3000 个。显然,ASCII 编码无法满足需求。所以汉字采用 GBK 编码,采用两个字节表示一个汉字。简体中文的编码方式是 GBK2312。

那 UTF-8 又是什么编码?这要先说 Unicode 了。Unicode 目的是为了统一各种编码。由于各国都各自的编码方式。如果采用一种编码编码,采用另一种编码解码。这会造成浮现乱码的情况。但 Unicode 只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。UTF-8 就是在互联网上采用最广的一种 Unicode 的实现方式。

因此,如果我们要写数据到文件中,最好指定编码形式为 UTF-8。

Python 标准库中,有个名为 csv 的库,专门解决 csv 的读写操作。具体采用实例如下:

import csv
import codecs
# codecs 是自然语言编码转换模块

fileName = 'PythonBook.csv'

# 指定编码为 utf-8, 避免写 csv 文件浮现中文乱码
with codecs.open(fileName, 'w', 'utf-8') as csvfile:
    # 指定 csv 文件的头部显示项
    filednames = ['书名', '作者']
    writer = csv.DictWriter(csvfile, fieldnames=filednames)

    books = []
    book = {
        'title': '笑傲江湖',
        'author': '金庸',
    }
    books.append(book)

    writer.writeheader()
    for book in books:
        try:
            writer.writerow({'书名':book['title'], '作者':book['author']})
        except UnicodeEncodeError:
            print("编码错误, 该数据无法写到文件中, 直接忽略该数据")

这种方式是逐行往 CSV 文件中写数据, 所以效率会比较低。如果想批量将数据写到 CSV 文件中,需要用到 pandas 库。

pandas 是第三方库,所以采用之前需要安装。经过 pip 方式安装是最简单、最方便的。

pip install pandas

采用 pandas 批量写数据的用法如下:

import pandas as pd

fileName = 'PythonBook.csv'
number = 1

books = []
book = {
    'title': '笑傲江湖',
    'author': '金庸',
}
# 如果 book 条数充足多的话,pandas 会每次往文件中写 50 条数据。
books.append(book)

data = pd.DataFrame(books)
# 写入csv文件,'a+'是追加模式
try:
    if number == 1:
        csv_headers = ['书名', '作者']
        data.to_csv(fileName, header=csv_headers, index=False, mode='a+', encoding='utf-8')
    else:
        data.to_csv('fileName, header=False, index=False, mode='a+', encoding='utf-8')
        number = number + 1
except UnicodeEncodeError:
    print("编码错误, 该数据无法写到文件中, 直接忽略该数据")



‹‹ 上一贴:python 多进程采用mysql是进程安全的吗? ...   |   下一贴:Win7 怎么采用 Python + ip2region 批量查询 IP 归属 ... ››
  发新话题
敏捷回答主题
关于我们 | 诚聘英才 | 联系我们 | 网站大事 | 友情链接 |建议反馈 | 网站地图
Copyright©2005-2018 51CTO.COM
本论坛言论纯属发布者个人建议,不代表51CTO网站立场!如有疑义,请与管理员联系:邮箱