学习记录十三：中国地面气候资料日值数据集（V3.0）处理

Release2024

编辑于 2023年09月09日 22:37

收录于文集

共14篇

一、数据说明

"中国地面气候资料日值数据集（V3.0）”包含了中国各个基准、基本气象站1951年1月以来本站气压、气温、降水量、蒸发量、相对湿度、风向风速、日照时数和0cm地温要素的日值数据（https://blog.csdn.net/m0_66875796/article/details/127408964?）

示例：53463PRE

1.气象要素EVP蒸发数据说明

2.气象要素GST地温数据说明

3.气象要素PRE降水数据说明

4.气象要素PRS气压数据说明

5.气象要素RHU相对湿度数据说明

6.气象要素SSD日照时数数据说明

7.气象要素TEM气温数据说明

8.气象要素WIN风速数据说明

二、数据处理（亲测好用的代码合集）

1.利用Python处理逐日气象数据集

原文1：http://gaohr.win/site/blogs/2019/2019-08-20-china-daily-ground-climate-data-extraction.html#

原文2：https://blog.csdn.net/weixin_44566896/article/details/104970082

 代码块
JavaScript
自动换行
复制代码
# -*- coding: utf-8 -*-
     
import os
import math
import numpy
import time
import datetime
     
# 创建类
class ClimateData:
    &amp;#39;&amp;#39;&amp;#39;
    读取气象站点数据，格式化输出
    （下载的原始逐日气象数据）
    &amp;#39;&amp;#39;&amp;#39;
     
    def __init__(self, dir, dir_out, sid, fields, period, days):
        self.dataDir = dir
        self.dataDir_out = dir_out
        self.sid = sid
        self.period = period
        self.days = days
        self.fieldName = fields
     
        # code：数据类型，ind：数据索引号，frc：真值拉伸系数，ev:异常值阈值，详见气象数据说明文档
        self.fieldInfo = {
                          &amp;quot;TEM&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;12001&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 30000},
                          &amp;quot;TMX&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;12001&amp;quot;, &amp;quot;ind&amp;quot;: 8, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 30000},
                          &amp;quot;TMN&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;12001&amp;quot;, &amp;quot;ind&amp;quot;: 9, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 30000},
                          &amp;quot;PRE&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;13011&amp;quot;, &amp;quot;ind&amp;quot;: 9, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 30000},  # 7:8-20 8:20-8 9:20-20
                          &amp;quot;EVP&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;13240&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 1000},
                          &amp;quot;RHU&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;13003&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 1.0, &amp;quot;ev&amp;quot;: 300},
                          &amp;quot;WIN&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;11002&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 1000},
                          &amp;quot;SSD&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;14032&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 99},
                          &amp;quot;GST&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;12030-0cm&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 10000},
                          &amp;quot;PRS&amp;quot;: {&amp;quot;code&amp;quot;: &amp;quot;10004&amp;quot;, &amp;quot;ind&amp;quot;: 7, &amp;quot;frc&amp;quot;: 0.1, &amp;quot;ev&amp;quot;: 20000}
                          }
        # 全部数据
        self.data = {}
        # 数据日期
        self.data_date = {}
        # 存储逐年数据
        self.data_y = {}
        # 待提取日期数据
        self.data_d = {}
     
        # 获得日期数组
        self.GetDateArr()
     
        for i in self.fieldName:
            self.data[i] = []
            self.data_date[i] = []
     
        for t in self.years:
            self.data_y[t] = {}
            for i in self.fieldName:
                self.data_y[t][i] = []
     
        for d in self.days:
            self.data_d[d] = {}
            for i in self.fieldName:
                self.data_d[d][i] = 0
     
    def GetDateArr(self):
        &amp;#39;&amp;#39;&amp;#39;
        根据起始日期，获得逐月日期
        :return:
        &amp;#39;&amp;#39;&amp;#39;
        self.date = []
        self.years = []
        startDT_y = int(self.period[0][0:4])
        startDT_m = int(self.period[0][4:6])
        endDT_y = int(self.period[1][0:4])
        endDT_m = int(self.period[1][4:6])
     
        if startDT_y == endDT_y:
            self.years.append(startDT_y)
            for j in range(startDT_m, endDT_m + 1):
                if j &amp;gt; 9:
                    self.date.append(str(startDT_y) + str(j))
                else:
                    self.date.append(str(startDT_y) + &amp;quot;0&amp;quot; + str(j))
        else:
            for i in range(startDT_y, endDT_y + 1):
                self.years.append(i)
                if i == startDT_y:
                    for j in range(startDT_m, 13):
                        if j &amp;gt; 9:
                            self.date.append(str(i) + str(j))
                        else:
                            self.date.append(str(i) + &amp;quot;0&amp;quot; + str(j))
                elif i &amp;lt; endDT_y:
                    for j in range(1, 13):
                        if j &amp;gt; 9:
                            self.date.append(str(i) + str(j))
                        else:
                            self.date.append(str(i) + &amp;quot;0&amp;quot; + str(j))
                else:
                    for j in range(1, endDT_m + 1):
                        if j &amp;gt; 9:
                            self.date.append(str(i) + str(j))
                        else:
                            self.date.append(str(i) + &amp;quot;0&amp;quot; + str(j))
     
     
    def ExtractData(self, sr=0):
        &amp;#39;&amp;#39;&amp;#39;
        Extract data
        :param sr: start row numbers, default is 0
        :return:
        &amp;#39;&amp;#39;&amp;#39;
        print(&amp;quot;Data extracting...&amp;quot;)
        # Get date arr
        s_time = time.clock()
  
        # 遍历每个数据类型
        for fn in self.fieldName:
            # 遍历逐月日期
            for dt in self.date:
                print(fn, dt)
                yr = int(dt[0:4])
                # 拼接字符串，组成数据文件路径
                field = fn
                if fn == &amp;quot;TMN&amp;quot; or fn == &amp;quot;TMX&amp;quot;:
                    field = &amp;quot;TEM&amp;quot;
  
                fileName = self.dataDir + os.sep + &amp;quot;SURF_CLI_CHN_MUL_DAY-&amp;quot; + \
                           field + &amp;quot;-&amp;quot; + self.fieldInfo[fn][&amp;#39;code&amp;#39;] + &amp;quot;-&amp;quot; + dt + &amp;quot;.TXT&amp;quot;
                if not os.path.isfile(fileName):
                    raise Exception(&amp;quot;Can not find %s&amp;quot; % fileName)
                else:
                    txtFile = open(fileName, &amp;#39;r&amp;#39;)
                    linesList = txtFile.read().split(&amp;#39;\n&amp;#39;)
                    iffind = False
                    hasdata = True
                    # 逐行遍历数据
                    for i in range(sr, len(linesList)):
                        if len(linesList[i]) &amp;gt; 0:
                            # 将每行数据拆成数组，按照索引提取数据
                            lineArr = SplitStr(linesList[i], spliters=&amp;#39; &amp;#39;)
                            if int(lineArr[0]) == self.sid:
                                iffind = True
                                # 将数据存储至数组
                                od = float(lineArr[self.fieldInfo[fn][&amp;#39;ind&amp;#39;]])
                                # PRS 数值处理
                                if fn == &amp;quot;PRS&amp;quot;:
                                    if od &amp;gt;= self.fieldInfo[fn][&amp;#39;ev&amp;#39;]:
                                        od = -100
                                # PRE 数值处理
                                elif fn == &amp;quot;PRE&amp;quot;:
                                    if od == 32766:
                                        od = -100
                                    elif od == 32700:
                                        od = 0
                                    elif od &amp;gt; 99999:
                                        od = 0
                                    else:
                                        od = od - int(od / 1000) * 1000
                                else:
                                    # 异常值处理,异常值用-100代替
                                    if od &amp;gt;= float(self.fieldInfo[fn][&amp;#39;ev&amp;#39;]) / float(self.fieldInfo[fn][&amp;#39;frc&amp;#39;]):
                                        # od = float(lineArr[int(self.fieldInfo[fn][&amp;#39;ind&amp;#39;]) - 1])
                                        od = -100.
 
                                # 将处理结果添加至数据字典
                                if od != -100:
                                    self.data[fn].append(od * float(self.fieldInfo[fn][&amp;#39;frc&amp;#39;]))
                                    self.data_y[yr][fn].append(od * float(self.fieldInfo[fn][&amp;#39;frc&amp;#39;]))
                                else:
                                    self.data[fn].append(od)
                                    self.data_y[yr][fn].append(od)
  
                                # 保存对应的日期
                                data_date_str = lineArr[4] + &amp;quot;-&amp;quot; + lineArr[5] + &amp;quot;-&amp;quot; + lineArr[6]
                                data_date_date = datetime.datetime.strptime(data_date_str, &amp;quot;%Y-%m-%d&amp;quot;)
                                data_date_fmt = datetime.datetime.strftime(data_date_date, &amp;quot;%Y-%m-%d&amp;quot;)
                                self.data_date[fn].append(data_date_fmt)
  
                            # 遍历完所设置站点的日期后结束循环
                            if int(lineArr[0]) != self.sid and iffind:
                                break
  
                        # 如果未匹配到数据，做标记
                        if i == len(linesList) - 27 and not iffind:
                            hasdata = False
                            break
  
                    # 如果未匹配数据，用-9999填充
                    if not hasdata:
                        firstrow = SplitStr(linesList[0], spliters=&amp;#39; &amp;#39;)
                        s0 = firstrow[0]
                        for k in range(len(linesList)):
                            lineArr_s0 = SplitStr(linesList[k], spliters=&amp;#39; &amp;#39;)
                            if int(lineArr_s0[0]) == int(s0):
                                # 将-9999添加至数据字典
                                self.data[fn].append(-9999)
                                self.data_y[yr][fn].append(-9999)
                                # 保存对应的日期
                                data_date_str = lineArr_s0[4] + &amp;quot;-&amp;quot; + lineArr_s0[5] + &amp;quot;-&amp;quot; + lineArr_s0[6]
                                data_date_date = datetime.datetime.strptime(data_date_str, &amp;quot;%Y-%m-%d&amp;quot;)
                                data_date_fmt = datetime.datetime.strftime(data_date_date, &amp;quot;%Y-%m-%d&amp;quot;)
                                self.data_date[fn].append(data_date_fmt)
                            else:
                                break
  
        e_time = time.clock()
        print(&amp;quot;\t&amp;lt;Run time: %.3f s&amp;gt;&amp;quot; % (e_time - s_time))
     
     
    def SaveData(self, period_days, avg=True, d=True):
        &amp;#39;&amp;#39;&amp;#39;
        将提取的数据存储到文件
        :param avg: 输出逐年平均数据
        :return:
        &amp;#39;&amp;#39;&amp;#39;
        print(&amp;quot;Save as file...&amp;quot;, end=&amp;#39;&amp;#39;)
        outStr = &amp;quot;&amp;quot;
        outStr += &amp;quot;date,&amp;quot;
        # 添加字段
        for s in range(len(self.fieldName)):
            if s != len(self.fieldName) - 1:
                outStr += self.fieldName[s] + &amp;quot;,&amp;quot;
            else:
                outStr += self.fieldName[s] + &amp;quot;\n&amp;quot;
        # 先遍历天数，再遍历类型，逐日添加数据
        for k in range(len(self.data[self.fieldName[0]])):
            # outStr += period_days[k] + &amp;quot;,&amp;quot;
            for s in range(len(self.fieldName)):
                if s == 0:
                    outStr += str(self.data_date[self.fieldName[s]][k]) + &amp;quot;,&amp;quot;
  
                if s != len(self.fieldName) - 1:
                    outStr += str(self.data[self.fieldName[s]][k]) + &amp;quot;,&amp;quot;
                else:
                    outStr += str(self.data[self.fieldName[s]][k]) + &amp;quot;\n&amp;quot;
  
        # Save
        createForld(self.dataDir_out)
        outputFile = self.dataDir_out + os.sep + str(self.sid) + &amp;quot;_data_&amp;quot; + self.period[0] + &amp;quot;_&amp;quot; + self.period[1] + &amp;quot;.csv&amp;quot;
        DeleteFile(outputFile)
        WriteLog(outputFile, outStr, MODE=&amp;#39;append&amp;#39;)
     
        # 输出逐年平均
        if avg:
            outStr = &amp;quot;&amp;quot;
            # 添加字段
            outStr += &amp;quot;DATE,&amp;quot;
            for s in range(len(self.fieldName)):
                if s != len(self.fieldName) - 1:
                    outStr += self.fieldName[s] + &amp;quot;,&amp;quot;
                else:
                    outStr += self.fieldName[s] + &amp;quot;\n&amp;quot;
     
            # 先遍历年份，再遍历类型，逐日添加数据
            for yr in self.years:
                outStr += str(yr) + &amp;quot;,&amp;quot;
                for s in range(len(self.fieldName)):
                    # 获取平均值
                    if self.fieldName[s] == &amp;quot;PRE&amp;quot;:
                        # 降水求累加值
                        data_avg = numpy.sum(self.data_y[yr][self.fieldName[s]])
                    else:
                        data_avg = numpy.average(self.data_y[yr][self.fieldName[s]])
     
                    if s != len(self.fieldName) - 1:
                        outStr += str(data_avg) + &amp;quot;,&amp;quot;
                    else:
                        outStr += str(data_avg) + &amp;quot;\n&amp;quot;
     
            outputFile_avg = self.dataDir_out + os.sep + str(self.sid) + &amp;quot;_data_&amp;quot; + self.period[0] + &amp;quot;_&amp;quot; + self.period[1] + &amp;quot;_avg.csv&amp;quot;
            DeleteFile(outputFile_avg)
            WriteLog(outputFile_avg, outStr, MODE=&amp;#39;append&amp;#39;)
     
        # 输出日数据
        if d:
            outStr = &amp;quot;&amp;quot;
            # 添加字段
            outStr += &amp;quot;DATE,&amp;quot;
            for s in range(len(self.fieldName)):
                if s != len(self.fieldName) - 1:
                    outStr += self.fieldName[s] + &amp;quot;,&amp;quot;
                else:
                    outStr += self.fieldName[s] + &amp;quot;\n&amp;quot;
     
            # 先遍历年份，再遍历类型，逐日添加数据
            for d in self.days:
                outStr += str(d) + &amp;quot;,&amp;quot;
                for s in range(len(self.fieldName)):
                    data_d = self.data_d[d][self.fieldName[s]]
     
                    if s != len(self.fieldName) - 1:
                        outStr += str(data_d) + &amp;quot;,&amp;quot;
                    else:
                        outStr += str(data_d) + &amp;quot;\n&amp;quot;
     
            outputFile_d = self.dataDir_out + os.sep + &amp;quot;data_&amp;quot; + self.period[0] + &amp;quot;_&amp;quot; + self.period[1] + &amp;quot;_days.csv&amp;quot;
            DeleteFile(outputFile_d)
            WriteLog(outputFile_d, outStr, MODE=&amp;#39;append&amp;#39;)
     
        print(&amp;quot;Completed!&amp;quot;)
    ## DateTime
def GetDateArr_days(timeStart, timeEnd):
    TIME_Start = datetime.datetime.strptime(timeStart, &amp;quot;%Y-%m-%d&amp;quot;)
    TIME_End = datetime.datetime.strptime(timeEnd, &amp;quot;%Y-%m-%d&amp;quot;)
    dateArr = getDayByDay(TIME_Start, TIME_End)
    # print dateArr
    return dateArr
  
def GetDateArr_strdays(timeStart, timeEnd, fmt=&amp;quot;%Y-%m-%d&amp;quot;):
    days = GetDateArr_days(timeStart, timeEnd)
    dateArr_str = []
    for d in days:
        dateArr_str.append(datetime.datetime.strftime(d, fmt))
    return dateArr_str
 
def getDayByDay(timeStart, timeEnd):
    oneday = datetime.timedelta(days=1)
    timeArr = [timeStart]
    while timeArr[len(timeArr) - 1] &amp;lt; timeEnd:
        tempday = timeArr[len(timeArr) - 1] + oneday
        timeArr.append(tempday)
    return timeArr
  
# Remove space(&amp;#39; &amp;#39;) and indent(&amp;#39;\t&amp;#39;) at the begin and end of the string
def StripStr(str):
    oldStr = &amp;#39;&amp;#39;
    newStr = str
    while oldStr != newStr:
        oldStr = newStr
        newStr = oldStr.strip(&amp;#39;\t&amp;#39;)
        newStr = newStr.strip(&amp;#39; &amp;#39;)
    return newStr
  
# Split string by spliter space(&amp;#39; &amp;#39;) and indent(&amp;#39;\t&amp;#39;) as default
def SplitStr(str, spliters=None):
    # spliters = [&amp;#39; &amp;#39;, &amp;#39;\t&amp;#39;]
    # spliters = []
    # if spliter is not None:
    #     spliters.append(spliter)
    if spliters is None:
        spliters = [&amp;#39; &amp;#39;, &amp;#39;\t&amp;#39;]
    destStrs = []
    srcStrs = [str]
    while True:
        oldDestStrs = srcStrs[:]
        for s in spliters:
            for srcS in srcStrs:
                tempStrs = srcS.split(s)
                for tempS in tempStrs:
                    tempS = StripStr(tempS)
                    if tempS != &amp;#39;&amp;#39;:
                        destStrs.append(tempS)
            srcStrs = destStrs[:]
            destStrs = []
        if oldDestStrs == srcStrs:
            destStrs = srcStrs[:]
            break
    return destStrs
  
# Write file
def WriteLog(logfile, contentlist, MODE=&amp;#39;replace&amp;#39;):
    if os.path.exists(logfile):
        if MODE == &amp;#39;replace&amp;#39;:
            os.remove(logfile)
            logStatus = open(logfile, &amp;#39;w&amp;#39;)
        else:
            logStatus = open(logfile, &amp;#39;a&amp;#39;)
    else:
        logStatus = open(logfile, &amp;#39;w&amp;#39;)
    if isinstance(contentlist, list) or isinstance(contentlist,tuple):
        for content in contentlist:
            logStatus.write(&amp;quot;%s%s&amp;quot; % (content, &amp;#39;\r\n&amp;#39;))
    else:
        logStatus.write(contentlist)
    logStatus.flush()
    logStatus.close()
  
# Create forld
def createForld(forldPath):
    if not os.path.isdir(forldPath):
        os.makedirs(forldPath)
 
# Delete file
def DeleteFile(fp):
    if os.path.exists(fp):
        os.remove(fp)
if __name__ == &amp;quot;__main__&amp;quot;:
    # 定义文件路径
    dataDir =r&amp;quot;G:\05小论文\1951-2020气象数据\按年份\1951_2020&amp;quot;
    dataDir_out =r&amp;quot;G:\05小论文\1951-2020气象数据\climate1951-2020&amp;quot;
  
    sidArr = [&amp;quot;56046&amp;quot;,&amp;quot;56033&amp;quot;,&amp;quot;54826&amp;quot;,&amp;quot;54827&amp;quot;]   # 站号列表
    fields = [&amp;quot;TEM&amp;quot;, &amp;quot;TMN&amp;quot;, &amp;quot;TMX&amp;quot;, &amp;quot;PRE&amp;quot;, &amp;quot;RHU&amp;quot;, &amp;quot;WIN&amp;quot;, &amp;quot;PRS&amp;quot;, &amp;quot;SSD&amp;quot;]   # 可选的提取变量列表
    START = &amp;quot;1951-01-01&amp;quot;   # 起始日期
    END = &amp;quot;2020-12-31&amp;quot;  # 终止日期
 
    period = [START.split(&amp;#39;-&amp;#39;)[0] + START.split(&amp;#39;-&amp;#39;)[1], END.split(&amp;#39;-&amp;#39;)[0] + END.split(&amp;#39;-&amp;#39;)[1]]
    period_days = GetDateArr_strdays(START, END)
    days = []
  
    # 逐站点提取数据
    for sid in sidArr:
        print(sid)
  
        # 计算起始搜索行数，提高提取速度
        sr = sidArr.index(sid) * 28
  
        c = ClimateData(dataDir, dataDir_out, int(sid), fields, period, days)
        c.ExtractData(sr=sr)
        c.SaveData(period_days, avg=False, d=False)复制成功