首页速度优化《逆流而上》：当情感的种子，在禁忌的土壤中悄然发芽

网站优化

八叉八叉：一场关于生活品味的奇妙碰撞

“哈昂哈昂够了太多了gif”：网络情绪的另类表达与情感共鸣

2026-06-08 18:20:54

阅读时长:1分钟

562次阅读

核心内容摘要

水蜜桃86满十八岁

冯.诺依曼计算机架构

连接机

Cell处理器

多点计算

GPU硬件

冯.诺依曼计算机架构冯·诺依曼架构是现代计算机的基石它由数学家约翰·冯·诺依曼在1945年提出核心思想是‌“存储程序”‌即程序指令和数据以二进制形式存储在同一内存中由CPU统一处理。

void some_function { int array[100]; int i 0; for (int i0;i100;i) { array[i]i*10; } }首先数组array的地址被装入某个内存访问寄存器然后参数i被装入到另一个寄存器。

循环退出条件为100这个退出条件既可以装入一个寄存器也可以以编码的形式成为指令流中的一个字面值。

计算机将重复执行这几条指令循环100次。

对于每一个计算出的值我们需要取来并执行“控制指令”、“访存指令”和“计算指令”。

这是低效的计算机执行的指令是相同的只是处理的数据不同。

设计者就为几乎所有的处理器设置了容量很小的缓存并且在更复杂的处理器中设置多级缓存。

图

典型的现代CPU缓存组成结构当需要从内存中取数据或者指令时处理器首先查询缓存如果数据或者指令在缓存中则高速缓存直接将其交给处理器。

如果数据不在一级缓存L1 Cache中则处理器向二级L2 Cache或者三级缓存L3 Cache发出读取请求如果缓存中没有则需要向主存即内存中读取。

现代CPU通常采用‌多级缓存体系‌主要包括L

L

L3三级部分高端处理器还有L4缓存。

‌L1 Cache (一级缓存)‌速度最快、容量最小通常分为‌指令缓存‌存储CPU即将执行的指令和‌数据缓存‌存储指令操作的数据分别服务于指令预取和数据读写单元。

‌L2 Cache (二级缓存)‌容量和速度介于L1和L3之间通常为‌统一缓存‌同时存储指令和数据。

在多核CPU中L2缓存可能为每个核心私有或多个核心共享。

‌L3 Cache (三级缓存)‌容量最大速度相对较慢通常为‌所有核心共享‌用于在多个核心之间快速交换数据减少访问主内存的次数。

‌L4 Cache (四级缓存)‌并非所有CPU都有通常集成在CPU封装内作为L3缓存的补充进一步降低内存延迟。

连接机连接机Connection Machine是上世纪由Thinking Machines公司研发的一系列‌大规模并行计算机‌核心创新在于用‌物理连接‌来模拟神经元网络追求极致并行计算。

连接机是并行计算史上的里程碑其理念在现代超级计算机和AI芯片中得以延续。

假如我们要处理一个RGB图像的颜色每种颜色用单字节表示每个像素的颜色用3个字节表示。

假设将蓝色值降为

假设内存不是交替的存储各个像素点的颜色值而是被分成红、绿、蓝三条。

我们会使用一个循环体将蓝色内存中的每个像素的颜色值减1。

每次操作的数据项都是相同的即每次迭代都需要进行取指、译码和执行三个操作。

连接机采用的是单指令多数据的模式Single Instruction,Multiple Data, SIMD并行处理。

如今SIMD理念广泛应用于现代CPU的SIMD指令集如Intel的SSE、AVX和GPU中用于加速多媒体和科学计算。

Cell处理器图

IBM cell处理器芯片布局图8个SPE版本它的思想是用一个常规处理器作为监管处理器该处理器与大量的高速流处理器相连。

在Cell处理器中常规的PowerPCPPC处理器担任与流处理器和外部世界的接口。

而SIMD流处理器IBM称其为SPEStream Processing Element则在常规处理器的管理下处理数据集。

要想为Cell处理器编程需要写一个在PowerPC核心处理器上运行的程序。

该程序会用一个互不相同的二进制码在每个流处理器单元SPE上调用执行一个程序SPE本身就是一个核它可以从自己本地的内存中取出一个独立的程序来执行这个程序与旁边的SPE执行的程序是不同的。

通过一个共享的互联网络SPE之间、SPE与PowerPC核之间可以相互通信。

这种混合架构编程是困难的程序员要从程序和数据两个方面明确管理8个SPE以及在PowerPC核上运行串行的程序。

当连接到一个高速的环形网络时SPE 还可以按顺序排列起来以执行一个包括多个步骤的流式操作。

图

Cell 处理器的流处理器连接路径示例这种流或者流水线处理方法的问题是系统运行的最快速度等于最慢节点的运行速度。

它和工厂里生产线的实际运行情况是完全相同的整条生产线的运行速度和最慢那个点的运行速度一样。

就像装配生产线上的工人一样每一个 SPB工人只执行一小部分任务所以它可以非常迅速和高效地完成这部分任务。

然而跟其他处理器一样SPE也存在带宽限制以及数据传递至下一阶段的开销问题。

因此当通过在每个 SPB上执行一个一致的程序来提高效率时我们也会在处理器间通信上有所损失并最终受到最慢的那个处理步骤的限制。

还有一种效率更高的方法是将所有待处理的数据放在一个SPE上然后让其余SPE分别处理一小块数据。

这相当于培训所有装配线上的工人去装配一个完整的部件。

对于简单的任务这是很容易的但是每个SPE受限于可用的程序和数据内存。

这时Power PC核就必须面向8个SPE进行数据的分发和收集而不是原先的两个因此主机和 SPE 间的管理开销及通信量就增加了。

多点计算PC集群通常运行Linux操作系统的集群版本。

在这个版本中它的每个节点从中央主控节点上获取引导指令和操作系统Operating System,OS。

例如在CudaDeveloper 环境中我们有一个由低功耗、带嵌入式CUDA GPU 的独立PC机组成的小型集群很便宜就能买来建立一个集群。

有时也可以使用已经被替换掉的旧PC机来组建集群硬件就几乎不花钱了。

然而集群计算存在的问题是它的速度受到节点之间通信总量的限制而这些通信是求解问题所必需的。

如果你有32个运算节点问题正好被划分成32个子任务并且各个节点之间无须通信那么你的问题求解是最适合集群计算的。

如果每个数据点都要从所有节点上获取数据那么你就是把一个很糟糕的问题交给了集群。

在现代的CPU 和GPU 中都能看到集群技术。

如果我们把图1中的每个CPU核作为一个节点二级缓存作为内存Dynamic Random Access Memory,DRAM三级缓存作为网络开关将内存作为大容量的辅存我们就得到一个集群的微缩模型。

图

典型的集群层次结构现代GPU的体系结构也完全相同。

一个GPU内有许多流处理器StreamingMaltiprocessor,SM它们就类似CPU 的核。

这些SM 与共享存储一级缓存连接在一起然后又与相当于SM 间互联开关的二级缓存相连。

数据先是存储在全局存储中然后被主机取出并使用。

除留一部分自己处理外主机将剩余的数据通过PCI-E互联开关直接送往另一个GPU的存储空间。

PCI-E 互联开关的传输速度比任何一个互联网络快好多倍。

图

类似集群的GPU簇如图5所示节点可以在集群中重复设置。

通过在一个可控的环境下重复设置节点就可以构造一个集群。

集群设计的一个进步是分布式应用程序。

分布式应用程序可以运行在许多节点上而每个节点又由包含多个 GPU的许多处理单元组成。

分布式应用程序可以运行在一个受集中控制的集群平台上也可以运行在随机连接在一起、自主控制的机器上来求解一个共同的问题。

GPU硬件图形处理器Graphics Processing UnitGPU是现代PC中常见的设备又称显示核心、视觉处理器或显示芯片是专门处理图像渲染和图形计算的微处理器。

GPU是一种用于执行大量并行计算任务的硬件平台其拥有数百个甚至上千个ALU算术逻辑单元Arithmetic Logic Unit基于的SIMT单指令多线程Single Instruction Multiple Threads架构以线程块为单位进行工作这些计算核心支持线程块中的多个线程在同一周期内执行相同的指令从而实现高效的并行计算 [8]。

GPU还包含DRAM用于存储数据和指令如纹理、顶点数据、着色器程序等以及包含Cache高速缓存用于临时存储频繁访问的数据或计算结果减少访问主内存的次数提高整体性能。

随着GPU的细分发展不同厂商、不同型号的GPU具体微观架构存在差异如NVIDIA的Tesla架构Fermi架构和Maxwell架构AMD的GCN架构RNDA架构等但核心部件、概念、以及运行机制仍大同小异。

每个GPU由若干个流处理器簇SM组成每个 SM配备8个或更多的流处理器Stream Processor, SP。

GPU 卡大致可以看成是一种加速卡或协处理器卡。

目前一个 GPU 卡必须与基于 CPU的主机相连才能工作。

在这方面它完全遵循 Cell 处理器搭配一个常规的串行处理核和N个SIMD SPE 核的方法。

每个 GPU设备包括一组SM每个SM又包含一组SP或者CUDA核。

这些SP最高可以实现32个单元并行工作。

它们消除了 CPU上为实现高速串行执行而设计的大量复杂的指令级并行处理电路。

取而代之的是由程序员指定的显式的并行模型使得同样大小的硅片可以容纳更强的计算能力。

GPU的性能主要由其所具有的SP的数量、全局内存的带宽和程序员利用并行架构的充分程度等因素决定。

八叉八叉：一场关于生活品味的奇妙碰撞

核心内容摘要

水蜜桃86满十八岁

冯.诺依曼计算机架构

连接机

Cell处理器

多点计算

GPU硬件

冯.诺依曼计算机架构冯·诺依曼架构是现代计算机的基石它由数学家约翰·冯·诺依曼在1945年提出核心思想是‌“存储程序”‌即程序指令和数据以二进制形式存储在同一内存中由CPU统一处理。

典型的现代CPU缓存组成结构当需要从内存中取数据或者指令时处理器首先查询缓存如果数据或者指令在缓存中则高速缓存直接将其交给处理器。

L

L3三级部分高端处理器还有L4缓存。

连接机连接机Connection Machine是上世纪由Thinking Machines公司研发的一系列‌大规模并行计算机‌核心创新在于用‌物理连接‌来模拟神经元网络追求极致并行计算。

假设内存不是交替的存储各个像素点的颜色值而是被分成红、绿、蓝三条。

Cell处理器图

IBM cell处理器芯片布局图8个SPE版本它的思想是用一个常规处理器作为监管处理器该处理器与大量的高速流处理器相连。

Cell 处理器的流处理器连接路径示例这种流或者流水线处理方法的问题是系统运行的最快速度等于最慢节点的运行速度。

多点计算PC集群通常运行Linux操作系统的集群版本。

典型的集群层次结构现代GPU的体系结构也完全相同。

类似集群的GPU簇如图5所示节点可以在集群中重复设置。

GPU硬件图形处理器Graphics Processing UnitGPU是现代PC中常见的设备又称显示核心、视觉处理器或显示芯片是专门处理图像渲染和图形计算的微处理器。

小头头被咬的视频-小头头被咬的视频应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

八叉八叉：一场关于生活品味的奇妙碰撞

核心内容摘要

水蜜桃86满十八岁

冯.诺依曼计算机架构

连接机

Cell处理器

多点计算

GPU硬件

冯.诺依曼计算机架构冯·诺依曼架构是现代计算机的基石它由数学家约翰·冯·诺依曼在1945年提出核心思想是‌“存储程序”‌即程序指令和数据以二进制形式存储在同一内存中由CPU统一处理。

典型的现代CPU缓存组成结构当需要从内存中取数据或者指令时处理器首先查询缓存如果数据或者指令在缓存中则高速缓存直接将其交给处理器。

L

L3三级部分高端处理器还有L4缓存。

连接机连接机Connection Machine是上世纪由Thinking Machines公司研发的一系列‌大规模并行计算机‌核心创新在于用‌物理连接‌来模拟神经元网络追求极致并行计算。

假设内存不是交替的存储各个像素点的颜色值而是被分成红、绿、蓝三条。

Cell处理器图

IBM cell处理器芯片布局图8个SPE版本它的思想是用一个常规处理器作为监管处理器该处理器与大量的高速流处理器相连。

Cell 处理器的流处理器连接路径示例这种流或者流水线处理方法的问题是系统运行的最快速度等于最慢节点的运行速度。

多点计算PC集群通常运行Linux操作系统的集群版本。

典型的集群层次结构现代GPU的体系结构也完全相同。

类似集群的GPU簇如图5所示节点可以在集群中重复设置。

GPU硬件图形处理器Graphics Processing UnitGPU是现代PC中常见的设备又称显示核心、视觉处理器或显示芯片是专门处理图像渲染和图形计算的微处理器。

小头头被咬的视频-小头头被咬的视频应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐