Python 类不要再写 __init__ 方法了

发布日期: 2025-05-30

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

原作：Glyph
译者：豌豆花下猫@Python猫
原题：StopWriting__init__Methods
原文：https ://blog. glyph.im/2025/04/stop-writing-init-methods. html
在Python3. 7版本（2018年6月发布）引入数据类(dataclasses)之前，__init__特殊方法有着重要的用途。如果你有一个表示数据结构的类——例如带有x和y属性的2DCoordinate——你如果想通过2DCoordinate(x=1,y=2)这样的方式构造它，就需要添加一个带有x和y参数的__init__方法。
那时候可用的其它实现方法都存在相当严重的问题：
你可以将2DCoordinate从公共API中移除，转而暴露一个make_2d_coordinate函数并使其不可导入，但这样你该如何在文档体现返回值或参数类型呢？
你可以记录x和y属性并让用户自己分别赋值，但这样2DCoordinate()就会返回一个无效的对象。
你可以使用类属性将坐标默认值设为0，这虽然解决了选项2的问题，但这会要求所有2DCoordinate对象不仅是可变的，而且在每个调用点都必须被修改。
你可以通过添加一个新的抽象类来解决选项1的问题，这个抽象类可以在公共API中暴露，但这会使每个新的公共类的复杂性激增，无论它有多简单。更糟糕的是，typing. Protocol直到Python3.8才出现，所以在3. 7之前的版本中，这会迫使你使用具体的继承并声明多个类，即使对于最基本的数据结构也是如此。
此外，一个只负责分配几个属性的__init__方法并没有什么明显的问题，所以在这种情况下它是一个不错的选择。考虑到我刚才描述的所有替代方案的问题，它在大多数情况下成为了明显的默认选择，这是有道理的。
然而，因为接受了\“定义一个自定义的__init__\“作为用户创建对象的默认方式，我们养成了一个习惯：在每个类的开头都放上一堆可以随意编写的代码，这些代码在每次实例化时都会被执行。
哪里有随意编写的代码，哪里就会有不可控的问题。
让我们设想一个复杂点的数据结构，创建一个与外部I/O交互的结构：FileReader。
当然Python有自己的文件对象抽象[ 1]，但为了演示，我们暂时忽略它。
假设我们有以下函数，位于一个fileio模块中：
open(path:str)->int
read(fileno:int,length:int)
close(fileno:int)
我们假设fileio. open返回一个表示文件描述符的整数【注1】，fileio. read从打开的文件描述符中读取length个字节，而fileio. close则关闭该文件描述符，使其失效。
根据我们写了无数个__init__方法所形成的思维习惯，我们可能会这样定义FileReader类：
对于我们的初始用例，这没问题。客户端代码通过执行类似FileReader(\“./config. json\“)的操作，来创建一个FileReader，它会将文件描述符int作为私有状态维护起来。这正是我们期望的；我们不希望用户代码看到或篡改_fd，因为这可能会违反FileReader的不变性。构造有效FileReader所需的所有必要工作——即调用open——都由FileReader. __init__处理好了。
然而，随着需求增加，FileReader. init__变得越来越尴尬。
最初我们只关心fileio. open，但后来，我们可能需要适配一个库，它因为某种原因需要自己管理对fileio. open的调用，并想要返回一个int作为我们的_fd，现在我们不得不采用像这样的奇怪变通方法：
这样一来，我们之前通过规范对象创建过程所获得的所有优势都丢失了。reader_from_fd的类型签名接收的只是一个普通的int，它甚至无法向调用者建议该如何传入的正确的int类型。
测试也变得麻烦多了，因为当我们想要在测试中获取FileReader的实例而不做实际的文件I/O时，都必须打桩替换自己的fileio. open副本，即使我们可以（例如）为测试目的在多个FileReader之间共享一个文件描述符。
上述例子都假定fileio. open是同步操作。但有许多网络资源实际上只能通过异步（因此：可能缓慢，可能容易出错）API获得，虽然这可能是一个假设性[ 2]问题。如果你曾经想要写出asyncdef__init(self):…，那么你已经在实践中碰到了这种限制。
要全面描述这种方法的所有问题，恐怕得写一本关于面向对象设计哲学的专著。所以我简单总结一下：所有这些问题的根源其实是相同的——我们把“创建数据结构”这个行为与“这个数据结构常见的副作用”紧密地绑定在了一起。既然说是“常见的”，那就意味着它们并非“总是”相关联的。而在那些并不相关的情况下，代码就会变得笨重且容易出问题
总而言之，定义__init__是一种反模式，我们需要一个替代方案。
本文翻译并首发于【Python猫】：https ://pythoncat. top/posts/2025-05-02-init
我认为采用以下三种设计，可解决a上述问题：
使用dataclass定义属性，
替换之前在__init__中执行的行为，改为用一个新的类方法来实现相同的功能，
使用精确的类型来描述一个有效的实例。
首先，让我们将FileReader重构为一个dataclass。它会为我们生成一个__init__方法，但这不是我们可以随意定义的，它会受到约束，即只能用于赋值属性。
但是…糟糕。在修复自定义__init__调用fileio. open的问题时，我们又引入了它所解决的几个问题：
我们丢失了FileReader(\“path\“)的简洁便利。现在用户不得不导入底层的fileio. open，这让最常见的创建对象方式变得既啰嗦又不直观。如果我们想让用户知道如何在实际场景中创建FileReader，就不得不在文档中添加对其它模块的使用指导。
对_fd作为文件描述符的有效性没有强制检查；它只是一个整数，用户很容易传入不正确的数字，但没有出现报错。
单独来看，只使用dataclass，无法解决所有问题，所以我们要加入第二项技术。
我们不希望产生额外的导入，或要求用户去查看其它模块——即除了FileReader本身之外的任何东西——来弄清楚该如何创建想要的FileReader。
幸运的是，我们有一个工具可以轻松解决这些问题：@classmethod。让我们定义一个FileReader. open类方法：
现在，你的调用者可以将FileReader(\“path\“)替换为FileReader. open(\“path\“)，获得与__init__相同的好处。

接下来，让我们解决稍微棘手的对象有效性问题。
我们的类型签名将这个东西称为int，底层的fileio. open返回的就是普通整数，这点我们无法改变。但是为了有效校验，我们可以使用`NewType`[3]来精确要求：
有几种方法可以处理底层库的问题，但为简洁起见，也为了展示这种方法不会带来任何运行时开销，我们干脆直接告诉Mypy：这里使用的fileio. open、fileio. read和fileio.write已经接收FileDescriptor类型的整数，而不是普通整数。
当然，我们也必须稍微调整FileReader，但改动很小。综合这些修改，代码变成了：
请注意，这里的关键不是使用NewType，而是让“属性齐全”的对象自然成为“有效实例”。NewType只是一个方便的工具，帮助我们在使用int、str或bytes等基本类型时施加必要的约束。
从现在开始，当你定义新的Python类时：
将它写成数据类（或者一个attrs类[ 4]，如果你喜欢的话）
使用默认的__init__方法。【注2】
添加@classmethod，为调用者提供方便且公开的对象构造方法。
要求所有依赖项都通过属性来满足，这样总是先创建出一个有效的对象。
使用typing. NewType来对基本数据类型（比如int和str）添加限制条件，尤其是当这些类型需要具备一些特殊属性时，比如必须来自某个特定库、必须是随机生成的等等。
如果以这种方式来定义类，你将获得自定义__init__方法的所有好处：
所有调用你数据结构的人都能拿到有效对象，因为只要属性设置正确，对象自然就是有效的。
你的库用户能够使用便捷的对象创建方法，这些方法会处理好各种复杂工作，让使用变得简单。而且用户只要看一眼类的方法列表，就能发现这些创建方式。
还有一些其它的好处：
你的代码会更经得起未来的考验，能轻松应对用户创建对象的各种新需求。

写测试时，你只需要提供所有需要的依赖项就能构造对象；不需要再用猴子补丁了，因为你可以直接调用类型构造器而不会产生任何I/O操作或副作用。
在没有数据类之前，Python语言中有个怪现象：仅仅是给数据结构填充数据这么基础的事情，竟然要重写一个带着4个下划线的方法。__init__方法就像个异类。而其他的魔术方法，像__add__或__repr__，本质上是在处理类的一些高级特性。
如今，这个历史遗留的语言瑕疵已经得到解决。有了@dataclass、@classmethod和NewType，你可以构建出易用、符合Python风格、灵活、易测试和健壮的类。
文中注释：
如果你还不熟悉，“文件描述符”其实是一个只在程序内部有意义的整数。当你让操作系统打开一个文件时，它会回应“我已经为你打开了文件7”，之后每当你引用“7”这个数字，它就代表那个文件，直到你执行close(7)关闭它。
当然，除非你有非常充分的理由。比如为了向后兼容，或者与其它库兼容，这些都可能是合理的理由。还有一些数据一致性校验，是无法通过类型系统表达的。最常见的例子是需要检查两个不同字段之间关系的类，比如“range”对象，其中start必须始终小于end。这类规则总有例外。不过，在__init__里执行任何I/O操作基本上都不是好主意，而那些在某些特殊情况下可能有用的其它操作，几乎都可以通过`__post_init__`[5]来实现，而不必直接写__init__。
参考资料
自己的文件对象抽象:https ://docs. python.org/3. 13/library/io. html#io. FileIO
假设性:https ://stackoverflow. com/questions/87892/what-is-the-status-of-posix-asynchronous-i-o-aio
NewType:https ://docs. python.org/3. 13/library/typing. html#newtype
attrs类:https ://blog. glyph.im/2016/08/attrs. html

-END-
👉R可视化教程：28个章节+11w字+数百张图
收费教程👇（请备注：428）

ZejunCao

https://zejuncao.github.io/2025/05/30/1000001813-2247534906-1/