基于K-Means和GARCH模型的地方债利差分析

　　◇ 作者：诚通证券证券投资部　陈彦如

　　中国人民大学统计学院　程敬雨

　　◇ 本文原载《债券》2025年2月刊

　　摘要

　　随着债券市场扩容，地方债已跃升为市场中的第一大品种，日益引发关注，本文探讨了金融科技在地方债利差分析中的应用。一级市场方面，通过K-Means聚类算法对地方债投标加点数据进行分类，揭示了不同地区和不同期限地方债的聚类特征，促进信用风险识别和地方债收益率曲线构建。二级市场方面，运用GARCH模型对10年期地方债利差进行时序分析，精准捕捉地方债利差的波动性，为投资者和政策制定者提供了深入的市场分析视角和数据支持。

　　关键词

　　地方债　信用利差　K-Means　聚类算法GARCH模型

　　引言

　　经过多年的发展，地方政府债券（以下简称“地方债”）现已成为中国债券市场现存规模最大的债券品种。对发行主体而言，地方债在推动稳增长、促投资、保民生、扩内需等方面发挥着重要作用；对投资者而言，其因明确的资金投向、稳定的收益预期以及税收优惠政策等多重优势，逐渐获得投资者青睐，成为了固定收益领域的核心资产标的。

　　同时，管理制度的建设不断强化，持续提高地方债市场公开化、规范化水平。自2009年启动发行以来，地方债发债模式先后经历了“代发代还”和试点省市“自发代还”阶段，地方债的还本付息由财政部负责，背后隐含国家信用担保。2014年5月，《2014年地方政府债券自发自还试点办法》发布，开创了地方政府自主发债新纪元。2015年《中华人民共和国预算法》中，我国赋予了地方政府适度举债融资的权限，正式建立起了“借、用、管、还”相统一的地方债管理机制，地方债利差的波动由此展开。

　　地方债利差，指地方债的一级发行利率或二级交易利率与同期限国债（无风险资产）利率之间的差异，反映了投资者购买地方债时希望获得的信用风险溢价和流动性补偿。地方债利差受多种因素影响，包括地方政府的财政状况、债务水平、经济增长预期、市场流动性状况以及宏观经济环境等。简言之，地方债利差是投资者对地方政府信用风险的量化表达，相关研究可以帮助投资者更好地评估和管理投资组合风险，促进资本的有效配置；政策制定者可以利用这些信息来调整财政政策，促进区域经济的均衡发展，对于维护金融稳定和推动实体经济持续健康发展具有重要意义。

　　传统的信用利差量化研究方法通常基于发行主体差异，构建宏观因子模型来刻画信用溢价。然而，地方债利差具有区域性差异小和波动性不强的特点，使得宏观因子模型在捕捉地方债利差动态时的解释力不足，实际应用受限。本文借助金融科技工具，以2020—2023年的地方债利差数据为研究样本，首先探讨了K-Means聚类算法在地方债投标加点分析中的应用，通过无监督学习方法揭示不同地区和期限地方债的聚类特征，运用GARCH模型对地方债利差进行时序分析，评估和预测市场动态，并在文末讨论了金融科技在地方债市场分析中的赋能作用。

　　研究方法与模型

　　（一）K-Means聚类在地方债投标加点分析的应用

　　一级发行时，以投标加点衡量地方债利差，其计算方式为：地方债的票面利率减去相应期限国债在发行前5个工作日的估值平均值，最终结果以基点（BP）为单位表示。本文通过对地方债投标加点数据进行分类，从而帮助投资者和政策制定者更好地理解市场结构、评估信用风险、优化投资决策，并为地方债的定价和发行提供数据支持。

　　1．样本选择

　　本文以2020—2023年发行的8156只地方债发行数据构建结构化的数据库，数据来源为万得（Wind）。按发行年份分成四组，每组中按照地区和期限进行整理，例如，“2020年”组中，“北京市、1年期”为一个样本数据。上述债券共组合成819个样本数据，其中2020年189个，2021年204个，2022年216个，2023年210个。每个数据样本由以下四个特征构成，即每个样本为1个四维向量，以描绘地方债加点数据的特征轮廓。

　　第一，加点均值映射了地方债相较于基准利率的风险溢价，是投资者对地方债信用风险和市场风险的综合评估。

　　第二，加点标准差揭示了债券市场对风险评估的波动程度，其数值的高低直接反映了市场对特定债券风险看法的一致性。

　　第三，加点与发行规模的相关性系数考量了发行量对债券定价的潜在影响。

　　第四，加点与票面利率的相关性系数展现了利率绝对水平对相对利差的影响。

　　以上特征共同映射出地方债的市场定价、风险程度和供需状况。

　　2．算法选择：K-Means聚类

　　本文选择K-Means算法来实现地方债投标加点的数据分类。K-Means是一种无监督学习领域的聚类方法，基于点与点之间距离的相似度来计算最佳类别归属，常用于资产分类。算法的核心是将数据样本划分为k个类别（又称“簇”），通过迭代过程将数据点分配到最近的簇中心（质心），以此来最小化簇内样本点与簇中心之间的距离总和，即最小化簇内的方差。

　　本文在每个发行年份中，独立执行K-Means聚类分析，共执行四次，以下是对单个年份数据进行聚类的详细步骤。第一步，算法从n个样本数据中随机选取k个质心作为初始的聚类中心，质心记为μ1（0），μ2（0），…，μK（0）。第二步，计算每个样本点xi到质心μj的距离，距离度量方法使用欧几里得距离（公式1），将每个样本点分配到最近的质心，得到k个簇。第三步，重新计算每个簇的质心。重复第二步和第三步计算，直到数据点的簇分配结果不再改变，得到最终的簇划分。本文中，k=4；按发行年份，n依次等于189、204、216、210。

　　公式1：欧几里得距离公式

　　3．聚类结果分析

　　表1展示了四年聚类分析的结果，可以清晰地观测到发行机制和市场行为随时间推移的变化。利差等级从第一类过渡到第四类，意味着信用风险溢价的逐步增加以及信用排名的逐级下降。2020年，样本利差范围仅为15BP，可见非市场化发行在当时占据主导地位，信用补偿尚未拉开差距。2021年1月1日起，《地方政府债券发行管理办法》生效，鼓励具备条件的地区在债务发行中合理设定投标区间，以推动地方债市场化运作，这一阶段的第一类利差显著下降，第二、三类小幅下行，而第四类利差则呈现明显上升，导致整体利差范围扩大至29BP。在2022年，各类地方债利差普遍呈现下降趋势，其中第四类利差下行幅度最为显著，超过10BP，利差范围收敛至22BP。2023年，第一类利差继续显著压缩，引领了整体的下行趋势，第三、四类利差降幅较小，最终整体利差范围再次扩大至26BP。

　　本文选择按年份对数据进行四次聚类，而非对整体数据进行一次性分类，核心目的在于维持地方债利差的时序特征。通过这种方式，在每一年度内对不同地区和期限的债券进行相对排名，实际上是对当年各类债券表现的相对评估。这样的分类策略使本文能够捕捉并分析地方债利差随时间的动态变化，从而更准确地反映市场在不同时间点对地方债务风险的评估和反应。

　　4．地区视角解读

　　首先，通过地区视角对聚类结果进行分析，在此过程中，将计划单列市的数据并入其所属的省份之中。本文对同一地区内属于相同利差类别的债券发行规模进行了累加求和，以便更直观地展现各地区在不同利差类别中的债券发行总量（见图1）。颜色的深浅程度用来表示各地区债券发行数量，颜色越深意味着更为密集。通过运用基本的统计方法如中位数，可以有效地提取出各地区利差类别的特征。例如，第一类利差包含北京、上海、广东、江苏和浙江，共同展现了经济发达地区的典型特征。

　　值得关注的是，上述经济发达地区仍有相当数量的债券被归入第二类利差。为了从时间维度探究这一现象的原因，本文按照年度对同一地区的利差类别进行了加权平均处理，以债券发行规模为权重，进而绘制出图2。上述6个发达地区除上海以外，均在2021年集中在第二类，随后于2022年、2023年恢复至第一类。2021年第一类利差显著集中在上海地区的债券上。这表明在当年的市场化改革中，上海走在了前列，与其他地区拉开了差距，因而获得了单独的利差分类。从图中可以观察到各地区的利差类别随时间呈现出的变化趋势，这反映了当地信用风险的动态演变以及市场对这些地区信用状况认可度的相应调整，受篇幅所限不一一分析。

　　此外，数据底稿显示，2021年的第一类利差还包括其他地区发行的30年期地方债，这意味着当年30年期地方债率先受到追捧。下面，本文将探讨不同地方债利差类别在债券期限这一关键维度上的分布特征。

　　5．期限视角解读

　　本文采用箱线图这一直观的统计工具，以展示具有相同发行期限的债券分类结果分布情况（见图3）。绿色三角形精准地标示了数据的均值所在，蓝色的箱体则清晰地界定了上下四分位数的区间范围，黑色线条延伸至数据的上边缘和下边缘，共同展示出数据分布的中心位置和散布范围。

　　如图3所示，1年期、2年期和30年期的地方债在利差分类上处于最低水平，这表明它们受到了市场青睐，相较于同期限的国债所需支付的溢价最小。相对而言，10年至20年期的地方债在分类分布上位于较高水平，这反映了市场对这类期限债券的需求相对较弱，投资者偏好程度不高。图中位于右上角的菱形图标代表数据中的离群点，这揭示了尽管30年期地方债整体上呈现出较低的利差水平，但仍有部分发行数据归入了第四类利差范畴，即这些债券发行时支付了较高的溢价。

　　图4呈现了不同发行期限下，各个利差分类的加点均值情况。其中，1年期地方债券仅涉及第一类和第二类利差，2年期地方债则不包含第四类利差，表明发行这两个期限的债券在信用排名上普遍较好，与前文的分析结果相吻合。在这两个期限的债券中，出现了第一类利差的加点均值高于第二类利差的倒挂现象。这一不寻常的结果主要是受2020年非市场化发行的影响，市场定价机制出现一定扭曲，从而影响了利差的分布格局。

　　在对3年期、5年期、7年期、10年期债券的分析中，可以观察到各类别利差的加点均值呈现出随着债券期限的延长而逐步抬升的趋势。然而，15年期债券的各类利差加点均值小于10年期。产生这一现象的主要原因在于，10年期地方债的利差基准是10年期国债，即市场上的活跃券种。由于其高度的流动性，该基准债券拥有更低的流动性溢价，从而增加了与它相比较的10年期地方债的利差加点情况。

　　通过聚类分析，本文提供了一种系统化的方法来解析复杂多维的地方债数据，该方法能够将具有相似特征的地方债进行有效分类，揭示出债券间的相互关系和市场行为的深层动因。这不仅可以加深投资者对不同区域债券信用风险的理解，还有助于预测市场趋势和潜在风险，为投资决策提供了坚实的数据支持。通过深入分析债券期限结构，能够更有效地理解地方债收益率曲线的形成机制，从而为构建和完善地方债市场的收益率曲线提供坚实的理论基础和实践指导。

　　（二）GARCH模型在地方债利差时序分析中的应用

　　在二级市场交易中，地方债利差被定义为特定期限的地方债估值收益率与相应期限的国债估值收益率之间的差值，以BP为计量单位。本文对地方债利差数据进行时间序列分析，旨在揭示地方债利差的动态变化模式，并预测未来的市场趋势。

　　1．样本选择

　　本文聚焦10年期品种，选取2020—2023年的日频地方债利差数据，依次取其对数，构建包含970个观测点的训练集，用以训练模型。为了评估模型的预测准确性，本文选取2024年1月的22个连续日频数据构成测试集，以验证模型的预测性能。

　　2．模型选择：GARCH模型

　　本文采用GARCH（广义自回归条件异方差）模型来刻画地方债利差的时序表现。金融序列通常具有自相关性和条件异方差性，即金融时间序列的波动性（方差）不是恒定的，而是随时间变化的。GARCH模型是时间序列分析中用于建模金融数据波动性的一种统计模型。GARCH模型的核心思想是，一个时间序列的波动性是其过去信息的函数，包括过去的波动性和过去的误差项。这种模型特别适用于金融时间序列数据，如利率、汇率、股票价格等，因为这些数据通常表现出波动聚集现象，即大的价格变动往往会被跟随一段时间的高波动性，而小的价格变动则伴随着低波动性。

　　相较于一般的时间序列预测模型如ARIMA（自回归整合移动平均），GARCH模型的优点在于它能够自动适应时间序列的波动性变化，不需要对波动性进行额外的建模，通过对过去波动的平方进行加权来衡量未来波动的变化趋势。

　　3．模型构建

　　（1）模型基础构建

　　GARCH模型由以下3个部分组成，分别为均值模型、异方差的分布假定、条件异方差模型。其中，rt是时间序列的观测值，μ是均值，ϵt是条件误差项，σt是条件方差，zt是独立同分布的随机误差项，通常假设为标准正态分布。

　　在GARCH模型中，每个时间点变量的波动率是最近p个时间点残差平方的线性组合，再与最近q个时间点变量波动的线性组合叠加起来得到。其中，α0＞0是常数项，αi、βj≥0分别衡量了过去的误差项平方和过去的条件方差对当前条件方差的影响，∑pi=1αi+∑qj=1βj＜1且假定αi、βj满足一定条件使得ϵt的条件方差随时间变化是有限的。

　　（2）残差序列条件异方差效应检验

　　在应用GARCH模型对金融时间序列数据分析前，进行Portmanteau-Q检验和Lagrange-Multiplier（LM）检验是至关重要的步骤。Portmanteau-Q检验用于检测时间序列中的自相关性，其原假设是序列中的滞后项自相关系数为零，即序列是纯随机的。如果检验得出的p-value低于显著性水平（通常为0.05），则表明时间序列中存在自相关性，这意味着序列中的观测值之间存在相关性，而非完全随机独立。

　　LM检验用于检测时间序列模型残差中的ARCH效应，即自回归条件异方差性。ARCH效应的存在意味着序列的条件方差不是恒定的，而是随着过去的信息而变化。当LM检验的统计量显著高于临界值，相应的p-value低于显著性水平时，我们拒绝原假设，认为残差序列存在自相关，即存在ARCH效应。

　　本文对训练集进行上述检验，两个检验的p值均小于0.05，因此得出结论，地方债利差对数序列不仅表现出自相关性，而且通过了异方差效应的检验。这一结果显示了使用GARCH模型的必要性，因为该模型能够有效地捕捉和建模时间序列的波动性聚集特征。

　　（3）拟合条件异方差模型

　　均值模型设置为ARMA（1，1）模型（一阶自回归和一阶移动平均），不包括均值；方差模型设置为sGARCH（1，1）模型（对称GARCH），分布模型被设置为正态分布。

　　使用训练集数据对模型进行拟合，计算预测值相对实际值的标准分数，计算公式为预测值与实际值之差除以实际值的标准差。结果显示，该标准分数在绝大多数情况下位于实际值的两倍标准差的范围内，这一现象揭示了模型具有出色的拟合能力，可以高精度捕捉数据的本质特征和趋势，从而提高预测结果的可靠性和准确性。

　　（4）模型检验

　　使用上述模型在测试集上进行预测模型的预测精度表现为：均方误差（MSE）仅为0.000053，均方根误差（RMSE）控制在0.01的较低水平，显示出模型预测与实际观测值之间的偏差较小。此外，决定系数（R²）高达0.94，意味着模型能够解释约94%的观测数据方差，这表明模型对利差变化具有较高的预测准确性和解释能力。综合这些指标，可见该模型在预测利差走势方面表现良好，能够提供有价值的市场趋势分析和决策参考。

　　结论与启示

　　本文通过深入分析2020年至2023年期间的地方债发行数据和估值数据，巧妙运用K-Means聚类算法和GARCH模型这两种先进的金融科技工具，不仅从地区和期限两个维度细致解析了地方债利差的动态演变，并且构建了一个精准的时序预测模型，为理解和预测地方债市场提供了新的视角和深刻的洞察。

　　第一，K-Means聚类算法在地方债投标加点分析中的应用表明，不同地区和期限的地方债存在显著的聚类特征。这些聚类结果不仅揭示了市场对地方债信用风险的评估，还反映了市场行为和发行机制的变化，并有利于地方债收益率曲线的构建。随着市场化改革的深入，地方债利差的变化将更加反映市场对信用风险的真实看法。

　　第二，GARCH模型在地方债利差时序分析中的应用验证了其在捕捉金融时间序列波动性方面的有效性。模型的高预测准确性和解释能力为投资者提供了一个强有力的工具，以评估和管理地方债投资组合的风险。此外，模型结果对于政策制定者在调整财政政策和促进区域经济发展方面提供了数据支持。

　　综上所述，金融科技的应用为地方债市场分析带来了新的视角和方法。本文通过结合无监督学习和条件异方差模型，不仅能够更好地理解市场结构和信用风险，还实现了预测市场趋势，从而为投资决策和政策制定提供科学依据。这些结论和启示凸显了金融科技在现代金融市场中的重要性，展现了其在提升市场效率、深化数据分析以及优化投资决策中的关键作用。未来，随着金融科技的进一步发展，期待看到更多创新工具和方法被应用于债券市场的深度分析中，以推动金融市场的持续健康发展。

　　参考文献

　　[1] 李晶．基于GARCH模型的上证50ETF期权风险对冲策略研究[J]．经济问题，2023（3）．

　　[2] 刘方兴．基于GARCH类模型和极值理论的理财产品风险分析[J]．债券，2024（7）． DOI： 10.3969/j.issn． 2095-3585.2024.07.018．

　　[3] 王建仁，马鑫，段刚龙．改进的K-means聚类k值选择算法[J]．计算机工程与应用，2019，55（8）．

　　[4] 王森，刘琛，邢帅杰． K-means聚类算法研究综述[J]．华东交通大学学报，2022，39（5）．

　　[5] 仉悦．政府干预对地方债发行利率影响的实证研究[D]．太原：山西财经大学，2023．

海量资讯、精准解读，尽在新浪财经APP

责任编辑：赵思远

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

基于K-Means和GARCH模型的地方债利差分析

Most Discussed