Python/Numpy 性能优化

栏目: Python · 发布时间: 7年前

内容简介：将 Python 翻译成 c/c++ 再编译执行。比原生 Python 快 1.5 倍左右。比原生 Python 快 10 倍左右。

Cython

将 Python 翻译成 c/c++ 再编译执行。

比原生 Python 快 1.5 倍左右。

Numpy

比原生 Python 快 10 倍左右。

numexpr

import numpy as np
import numexpr as ne
N = 10 ** 5
a = np.random.uniform(-1, 1, N)
b = np.random.uniform(-1, 1, N)
ne.evaluate('a ** 2 + b ** 2')

比 Numpy 快 2 到 10 倍。

多线程与多进程并发

concurrent.futures.ThreadPoolExecutor(cpu_count)
# 或者
concurrent.futures.ProcessPoolExecutor(cpu_count)

CuPy

使用 CUDA 计算，直接将 numpy 替换成 cupy。

比原生 Python 快 250 倍左右。

多显卡

使用 cupy.cuda.Device(cuda_index) 切换显卡设备：

with cupy.cuda.Device(1):
    x_on_gpu1 = cupy.array([1, 2, 3, 4, 5])

这里 x_on_gpu1 将在 GPU 1 上分配。

使用 Chainer 简化主存/显存切换

本小节内容摘自在Chainer中使用GPU，更多详细信息请参考原文。

Chainer将CuPy的默认分配器更改为内存池，因此用户可以直接使用CuPy的功能而不需要处理内存分配器。

Chainer提供了一些方便的功能来自动切换和选择设备。例如，chainer.cuda.to_gpu（）函数将numpy.ndarray对象复制到指定的设备：

x_cpu = np.ones((5, 4, 3), dtype=np.float32)
x_gpu = cuda.to_gpu(x_cpu, device=1)

它相当于使用CuPy的以下代码：

x_cpu = np.ones((5, 4, 3), dtype=np.float32)
with cupy.cuda.Device(1):
    x_gpu = cupy.array(x_cpu)

更多并发骚操作，参考 Python并行编程。

Over

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

无懈可击的Web设计

【美】Dan Cederholm / 马跃 / 清华大学出版社 / 2012-5 / 39.00元

本书将指导您采用标准设计策略来满足以各种方式浏览网页的各类用户的需要。每章首先列举一个沿用传统HTML技术的实例，然后指出该实例的局限性，并利用XHTML和CSS对其进行重构。从中您将学会如何用简洁高效的HTML标记和CSS来取代臃肿的代码，从而创建加载速度极快、能供所有用户使用的网站。本书最后将前面各章讨论的所有页面组件珠联璧合地结合在一起，制作了一个页面模板。这一版全面润色和更新了上一版本，介......一起来看看《无懈可击的Web设计》这本书的介绍吧!

码农工具