一文带你搞清楚Python的多线程和多进程

python · 浏览次数 : 0

小编点评

本文介绍了Python中多线程与多进程编程的概念、区别以及如何使用线程池与进程池来提高并发执行效率。多线程适用于I/O密集型任务,而多进程适用于CPU密集型任务。文章通过示例演示了如何使用线程池和进程池执行任务,并通过性能比较说明了进程池在CPU密集型任务中的优势。最后,文章提供了并发编程的一些最佳实践与建议,帮助开发者编写高效、稳定的并发程序。 1. **多线程与多进程概念及应用**: 本文首先介绍了多线程和多进程的概念,以及它们在Python中并发编程中的应用场景。多线程适用于I/O密集型任务,如网络请求、文件操作等,而多进程适用于CPU密集型任务,如计算密集型算法、图像处理等。 2. **线程池与进程池原理及性能比较**: 文章进一步探讨了线程池和进程池的工作原理,以及它们之间的性能比较。线程池具有轻量级、共享内存、低开销等优点,适合I/O密集型任务;而进程池具有真正的并行性和稳定性,适合CPU密集型任务。 3. **代码示例与应用实例**: 文章通过示例演示了如何使用线程池和进程池来执行一组任务,包括下载多个文件的示例。通过性能比较,说明了进程池在CPU密集型任务中的优势。 4. **并发编程注意事项与最佳实践**: 最后,文章提供了一些并发编程中的注意事项和最佳实践,包括共享资源的同步、内存消耗与上下文切换、异常处理与任务超时等。这些建议有助于开发者编写高效、稳定的并发程序,提高程序的执行效率和性能。

正文

本文分享自华为云社区《Python中的多线程与多进程编程大全【python指南】》,作者:柠檬味拥抱。

Python作为一种高级编程语言,提供了多种并发编程的方式,其中多线程与多进程是最常见的两种方式之一。在本文中,我们将探讨Python中多线程与多进程的概念、区别以及如何使用线程池与进程池来提高并发执行效率。

多线程与多进程的概念

多线程

多线程是指在同一进程内,多个线程并发执行。每个线程都拥有自己的执行栈和局部变量,但共享进程的全局变量、静态变量等资源。多线程适合用于I/O密集型任务,如网络请求、文件操作等,因为线程在等待I/O操作完成时可以释放GIL(全局解释器锁),允许其他线程执行。

多进程

多进程是指在操作系统中同时运行多个进程,每个进程都有自己独立的内存空间,相互之间不受影响。多进程适合用于CPU密集型任务,如计算密集型算法、图像处理等,因为多进程可以利用多核CPU并行执行任务,提高整体运算速度。

线程池与进程池的介绍

线程池

线程池是一种预先创建一定数量的线程并维护这些线程,以便在需要时重复使用它们的技术。线程池可以减少线程创建和销毁的开销,提高线程的重复利用率。在Python中,可以使用concurrent.futures.ThreadPoolExecutor来创建线程池。

进程池

进程池类似于线程池,不同之处在于进程池预先创建一定数量的进程并维护这些进程,以便在需要时重复使用它们。进程池可以利用多核CPU并行执行任务,提高整体运算速度。在Python中,可以使用concurrent.futures.ProcessPoolExecutor来创建进程池。

线程池与进程池的应用示例

下面是一个简单的示例,演示了如何使用线程池和进程池来执行一组任务。

import concurrent.futures
import time

def task(n):
    print(f"Start task {n}")
    time.sleep(2)
    print(f"End task {n}")
    return f"Task {n} result"

def main():
    # 使用线程池
    with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
        results = executor.map(task, range(5))
        for result in results:
            print(result)

    # 使用进程池
    with concurrent.futures.ProcessPoolExecutor(max_workers=3) as executor:
        results = executor.map(task, range(5))
        for result in results:
            print(result)

if __name__ == "__main__":
    main()

在上面的示例中,我们定义了一个task函数,模拟了一个耗时的任务。然后,我们使用ThreadPoolExecutor创建了一个线程池,并使用map方法将任务提交给线程池执行。同样地,我们也使用ProcessPoolExecutor创建了一个进程池,并使用map方法提交任务。最后,我们打印出每个任务的结果。

线程池与进程池的性能比较

虽然线程池与进程池都可以用来实现并发执行任务,但它们之间存在一些性能上的差异。

线程池的优势

  • 轻量级: 线程比进程更轻量级,创建和销毁线程的开销比创建和销毁进程要小。
  • 共享内存: 线程共享同一进程的内存空间,可以方便地共享数据。
  • 低开销: 在切换线程时,线程只需保存和恢复栈和寄存器的状态,开销较低。

进程池的优势

  • 真正的并行: 进程可以利用多核CPU真正并行执行任务,而线程受到GIL的限制,在多核CPU上无法真正并行执行。
  • 稳定性: 进程之间相互独立,一个进程崩溃不会影响其他进程,提高了程序的稳定性。
  • 资源隔离: 每个进程有自己独立的内存空间,可以避免多个线程之间的内存共享问题。

性能比较示例

下面是一个简单的性能比较示例,演示了线程池和进程池在执行CPU密集型任务时的性能差异。

import concurrent.futures
import time

def cpu_bound_task(n):
    result = 0
    for i in range(n):
        result += i
    return result

def main():
    start_time = time.time()

    # 使用线程池执行CPU密集型任务
    with concurrent.futures.ThreadPoolExecutor(max_workers=3) as executor:
        results = executor.map(cpu_bound_task, [1000000] * 3)

    print("Time taken with ThreadPoolExecutor:", time.time() - start_time)

    start_time = time.time()

    # 使用进程池执行CPU密集型任务
    with concurrent.futures.ProcessPoolExecutor(max_workers=3) as executor:
        results = executor.map(cpu_bound_task, [1000000] * 3)

    print("Time taken with ProcessPoolExecutor:", time.time() - start_time)

if __name__ == "__main__":
    main()

在上面的示例中,我们定义了一个cpu_bound_task函数,模拟了一个CPU密集型任务。然后,我们使用ThreadPoolExecutorProcessPoolExecutor分别创建线程池和进程池,并使用map方法提交任务。最后,我们比较了两种方式执行任务所花费的时间。

通过运行以上代码,你会发现使用进程池执行CPU密集型任务的时间通常会比使用线程池执行快,这是因为进程池可以利用多核CPU真正并行执行任务,而线程池受到GIL的限制,在多核CPU上无法真正并行执行。

当考虑如何实现一个能够同时下载多个文件的程序时,线程池和进程池就成为了很有用的工具。让我们看看如何用线程池和进程池来实现这个功能。

首先,我们需要导入相应的库:

import concurrent.futures
import requests
import time

然后,我们定义一个函数来下载文件:

def download_file(url):
    filename = url.split("/")[-1]
    print(f"Downloading {filename}")
    response = requests.get(url)
    with open(filename, "wb") as file:
        file.write(response.content)
    print(f"Downloaded {filename}")
    return filename

接下来,我们定义一个函数来下载多个文件,这里我们使用线程池和进程池来分别执行:

def download_files_with_thread_pool(urls):
    start_time = time.time()
    with concurrent.futures.ThreadPoolExecutor() as executor:
        results = executor.map(download_file, urls)
    print("Time taken with ThreadPoolExecutor:", time.time() - start_time)

def download_files_with_process_pool(urls):
    start_time = time.time()
    with concurrent.futures.ProcessPoolExecutor() as executor:
        results = executor.map(download_file, urls)
    print("Time taken with ProcessPoolExecutor:", time.time() - start_time)

最后,我们定义一个主函数来测试这两种方式的性能:

def main():
    urls = [
        "https://www.example.com/file1.txt",
        "https://www.example.com/file2.txt",
        "https://www.example.com/file3.txt",
        # Add more URLs if needed
    ]

    download_files_with_thread_pool(urls)
    download_files_with_process_pool(urls)

if __name__ == "__main__":
    main()

通过运行以上代码,你可以比较使用线程池和进程池下载文件所花费的时间。通常情况下,当下载大量文件时,使用进程池的性能会更好,因为它可以利用多核CPU实现真正的并行下载。而使用线程池则更适合于I/O密集型任务,如网络请求,因为线程在等待I/O操作完成时可以释放GIL,允许其他线程执行。

这个例子展示了如何利用线程池和进程池来提高并发下载文件的效率,同时也强调了根据任务特点选择合适的并发编程方式的重要性。

并发编程中的注意事项

虽然线程池与进程池提供了方便的并发执行任务的方式,但在实际应用中还需要注意一些问题,以避免出现潜在的并发问题和性能瓶颈。

共享资源的同步

  • 在多线程编程中,共享资源的访问需要进行同步,以避免竞争条件和数据不一致性问题。可以使用锁、信号量等同步机制来保护关键资源的访问。
  • 在多进程编程中,由于进程之间相互独立,共享资源的同步相对简单,可以使用进程间通信(如管道、队列)来传递数据,避免数据竞争问题。

内存消耗与上下文切换

  • 创建大量线程或进程可能会导致内存消耗增加,甚至引起内存泄漏问题。因此,在设计并发程序时需要注意资源的合理利用,避免创建过多的线程或进程。
  • 上下文切换也会带来一定的开销,特别是在频繁切换的情况下。因此,在选择并发编程方式时,需要综合考虑任务的特点和系统资源的限制,以及上下文切换的开销。

异常处理与任务超时

  • 在并发执行任务时,需要注意异常处理机制,及时捕获和处理任务中可能出现的异常,以保证程序的稳定性和可靠性。
  • 另外,为了避免任务阻塞导致整个程序停滞,可以设置任务的超时时间,并在超时后取消任务或进行相应的处理。

最佳实践与建议

在实际应用中,为了编写高效、稳定的并发程序,可以遵循以下一些最佳实践和建议:

  • 合理设置并发度: 根据系统资源和任务特点,合理设置线程池或进程池的大小,避免创建过多的线程或进程。
  • 合理分配任务: 根据任务的类型和特点,合理分配任务到线程池或进程池中,以充分利用系统资源。
  • 注意异常处理: 在任务执行过程中及时捕获和处理异常,保证程序的稳定性和可靠性。
  • 监控与调优: 使用监控工具和性能分析工具对并发程序进行监控和调优,及时发现和解决性能瓶颈和潜在问题。

通过遵循以上最佳实践和建议,可以编写出高效、稳定的并发程序,提高程序的执行效率和性能。同时,也可以避免一些常见的并发编程陷阱和问题,确保程序的质量和可靠性。

总结

本文介绍了在Python中使用线程池和进程池来实现并发编程的方法,并提供了相应的代码示例。首先,我们讨论了多线程和多进程的概念及其在并发编程中的应用场景。然后,我们深入探讨了线程池和进程池的工作原理以及它们之间的性能比较。

在代码示例部分,我们演示了如何使用线程池和进程池来执行多个任务,其中包括下载多个文件的示例。通过比较两种方式执行任务所花费的时间,我们可以更好地了解它们在不同场景下的优劣势。

此外,文章还提供了一些并发编程中的注意事项和最佳实践,包括共享资源的同步、内存消耗与上下文切换、异常处理与任务超时等。这些建议有助于开发者编写高效、稳定的并发程序,提高程序的执行效率和性能。

总的来说,线程池和进程池是Python中强大的工具,能够帮助开发者轻松实现并发编程,并充分利用计算资源。选择合适的并发编程方式,并结合实际场景和任务特点,可以编写出高效、可靠的并发程序,提升应用的性能和用户体验。

点击关注,第一时间了解华为云新鲜技术~

 

与一文带你搞清楚Python的多线程和多进程相似的内容:

一文带你搞清楚Python的多线程和多进程

本文分享自华为云社区《Python中的多线程与多进程编程大全【python指南】》,作者:柠檬味拥抱。 Python作为一种高级编程语言,提供了多种并发编程的方式,其中多线程与多进程是最常见的两种方式之一。在本文中,我们将探讨Python中多线程与多进程的概念、区别以及如何使用线程池与进程池来提高并

Vue源码学习(一):数据劫持(对象类型)

好家伙,了解一下Vue如何实现数据劫持 1.Vue中data的使用 首先,我得搞清楚这玩意的概念,我们先从vue的使用开始吧 想想看,我们平时是如何使用vue的data部分的? 无非是这两种情况 (你可千万不要带着惊讶的表情说"啊!原来有两种写法的吗") //函数写法 data() { return

一文带你搞懂 Google 发布的新开源项目 GUAC

随着软件供应链攻击的显著增加,以及 Log4j 漏洞带来的灾难性后果和影响,软件供应链面临的风险已经成为网络安全生态系统共同关注的最重要话题之一。根据业内权威机构 Sonatype 发布的2022软件供应链现状报告,在过去三年中,针对上游开源代码存储库的恶意活动,旨在将恶意软件植入软件组件的攻击数量

一文带你搞懂数据库事务

本文由葡萄城技术团队于博客园原创并首发转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 谈起数据库,事务是绕不开的话题。无论你是研发、实施还是运维,都需要理解、使用无数据事务的特性。数据库事务连接各种数据,是处理各种数据的基础。那么数据库事务究竟是什么意思?

一文带你搞懂如何优化慢SQL

最近通过SGM监控发现有两个SQL的执行时间占该任务总执行时间的90%,通过对该SQL进行分析和优化的过程中,又重新对SQL语句的执行顺序和SQL语句的执行计划进行了系统性的学习,整理的相关学习和总结如下;

[转帖]一文带你搞懂 CDN 的技术原理

http://blog.itpub.net/31545813/viewspace-2924432/ 网络通信/物联网 编辑:李雪薇 时间:2022-11-22 09:11:41 1330 0 CDN 的全称是 Content Delivery Network,即内容分发网络。其目的是通过在现有的In

[转帖]一文带你搞懂xxl-job(分布式任务调度平台)

https://zhuanlan.zhihu.com/p/625060354 前言 本篇文章主要记录项目中遇到的 xxl-job 的实战,希望能通过这篇文章告诉读者们什么是 xxl-job 以及怎么使用 xxl-job 并分享一个实战案例。 那么下面先说明什么是 xxl-job 以及为什么要使用它。

3分钟带你搞定Spring Boot中Schedule

一、背景介绍 在实际的业务开发过程中,我们经常会需要定时任务来帮助我们完成一些工作,例如每天早上 6 点生成销售报表、每晚 23 点清理脏数据等等。 如果你当前使用的是 SpringBoot 来开发项目,那么完成这些任务会非常容易! SpringBoot 默认已经帮我们完成了相关定时任务组件的配置,

【长文】带你搞明白Redis

Redis,英文全称是Remote Dictionary Server(远程字典服务),是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 与MySQL数据库不同的是,Redis的数据是存在内存中的。它的读写速度非常快,每...

手把手带你搞定用户权限控制

在实际的软件项目开发过程中,用户权限控制可以说是所有运营系统中必不可少的一个重点功能,根据业务的复杂度,设计的时候可深可浅,但无论怎么变化,设计的思路基本都是围绕着用户、角色、菜单这三个部分展开。 如何设计一套可以精确到按钮级别的用户权限功能呢? 今天通过这篇文章一起来了解一下相关的实现逻辑,不多说