annotation的中文含义是"注解"。正如这名字所暗示的，传递给annotate函数的每个参数，都会以"注解"的形式添加到model queryset返回的每一个object里面。

和annotate经常在一起使用的是aggregation函数。

举个栗子

Blog Model有一个外键entry指向Entry model。我们想计算每个blog有多少个entry：

>>> from django.db.models import Count>>> q = Blog.objects.annotate(Count('entry'))# The name of the first blog>>> q[0].name'Blogasaurus'# The number of entries on the first blog>>> q[0].entry__count42复制代码

我们一起break down上面这部分代码：

q = Blog.objects.annotate(Count('entry'))复制代码

这里使用了Count这个aggregation函数，作用是对一个指定的Blog object，计算它对应的Entry object有多少个。Blog.objects.annotate(Count('entry'))就是对每个Blog object，计算一下与之对应entry有几个。返回值是一个queryset。与

Blog.objects.all()复制代码

的区别在于，Blog.objects.annotate(Count('entry'))中的每一项，都多了一个entry__count字段，这就是我们想要的那个数据。

q[0].nameq[0].entry__count复制代码

q是一个queryset，q[0]就是获取第一个object，他里面多了一个entry__count字段。

举个反栗子

如果你不知道annotate这个东西，你肯定会想到一种"pythonic"的方法：

q = Blog.objects.all()for blog in q:    entry__count = blog.entry.count()    print(blog.name)    print(entry__count)复制代码

这种方法更容易理解，但是会杀死你的性能。假如你有10W条blog，q = Blog.objects.all() 这里进行了一次查询，for循环那里，对每一个blog都要进行一次查询，所以总查询次数是10W+1次。我们知道：django orm是对sql进行的一层封装，有封装自然就会有性能损失。每一次django的查询，都要从Python层进入数据库层，然后再从数据库层进入Python层，即使这样的一次转换时间是很短的，但是这么多次累计起来，消耗的无意义时间是很可观的。

而前面那种方法，总查询次数只有一次，从Python层进入数据库层再回到Python层的次数只有一次，效率当然要高很多！

django orm有一个性能优化技巧：尽可能减少Python层和数据库层转换的次数。而Python的for循环天然会增加这种转换次数。所以对于一些简单的逻辑，可以考虑使用annotate取代for循环。

勘误

很感谢有些朋友指出的，annotate并不一定能减少IO次数。

其实是书本（《数据库原理及应用》）第九章的问题，查询优化的问题，用了annotation和不用，看底层如何存储和存取方法是什么？文中举的实例是10w条，第二条是顺序遍历，annotation也不一定会一次都读到内存里啊，还要看预留缓冲区的大小，每个物理块存多少条数据，才能决定io次数，查询效率的高低与查询逻辑或查询语句的优略有关，但到最后还是要归结到底层。

所以用IO次数来解释性能差异是不严谨的，应该用Python层到数据库层的转换次数来解释。

下面来看一个我实际做的一个测试，看看使用annotate和使用for循环，性能差异到底有多大：

数据库中WX_User这个model一共有15W条数据。其中有一个ManyToManyField字段：

selected_stocks = models.ManyToManyField(Company, blank=True)复制代码

我们想知道每个用户有多少个selected_stocks。

方法一：annotate

def annotate_test(reuqest):    from django.db.models import Count    import time    start = time.time()    q = WX_User.objects.annotate(        stock_count=Count('selected_stocks')    )    data = []    for user in q:        data.append(user.stock_count)    end = time.time()    return JsonResponse({        'spent': end - start    })复制代码

耗时10.7 s。

方法二：使用for循环

def annotate_test2(reuqest):    import time    start = time.time()    q = WX_User.objects.all()    data = []    for user in q:        data.append(user.selected_stocks.count())    end = time.time()    return JsonResponse({        'spent': end - start    })复制代码

耗时457s。

二者的性能差距是巨大的。

打个广告

关注我的微信公众号