{"id":1721,"date":"2025-05-23T16:21:40","date_gmt":"2025-05-23T07:21:40","guid":{"rendered":"https:\/\/www.dogrow.net\/nnet\/?p=1721"},"modified":"2025-05-25T10:47:59","modified_gmt":"2025-05-25T01:47:59","slug":"blog48-cpusingle-cpumulti-gpu%e3%81%a7%e3%83%99%e3%82%af%e3%83%88%e3%83%ab%e8%a8%88%e7%ae%97%e9%80%9f%e5%ba%a6%e3%82%92%e6%af%94%e8%bc%83%e3%81%99%e3%82%8b%e3%80%82","status":"publish","type":"post","link":"https:\/\/www.dogrow.net\/nnet\/blog48-cpusingle-cpumulti-gpu%e3%81%a7%e3%83%99%e3%82%af%e3%83%88%e3%83%ab%e8%a8%88%e7%ae%97%e9%80%9f%e5%ba%a6%e3%82%92%e6%af%94%e8%bc%83%e3%81%99%e3%82%8b%e3%80%82\/","title":{"rendered":"(48) CPU(Single), CPU(Multi), GPU\u3067\u30d9\u30af\u30c8\u30eb\u8a08\u7b97\u901f\u5ea6\u3092\u6bd4\u8f03\u3059\u308b\u3002"},"content":{"rendered":"<p>Single processor, Multi processor\u3067\u306f\u3042\u308a\u307e\u305b\u3093\u3002<br \/>\nSingle-core, Multi-core\u3067\u306e\u6bd4\u8f03\u3067\u3059\u3002<\/p>\n<h1 class=\"my_h\">\u30101\u3011\u3084\u308a\u305f\u3044\u3053\u3068<\/h1>\n<p>\u904e\u53bb\u8a18\u4e8b <a href=\"https:\/\/www.dogrow.net\/nnet\/blog46%e3%80%90othello-ai%e3%80%91%e3%82%aa%e3%82%bb%e3%83%adai%e3%81%ab%e3%82%82%e7%9b%b8%e6%80%a7%e3%81%8c%e3%81%82%e3%82%8b%e3%80%82\/\" target=\"_blank\">(46)\u3010Othello AI\u3011\u30aa\u30bb\u30edAI\u306b\u3082\u76f8\u6027\u304c\u3042\u308b\u3002<\/a> \u3067\u306f\u3001CPU\u5b9f\u884c\u3057\u3066\u3044\u305f\u30d7\u30ed\u30b0\u30e9\u30e0\u3092 RTX 5070ti \u306b\u5b9f\u884c\u3055\u305b\u305f\u3068\u3053\u308d\u3001\u51e6\u7406\u901f\u5ea6\u304c 10\u500d\u8fd1\u304f\u5411\u4e0a\u3057\u305f\u3002<\/p>\n<p>\u3042\u3089\u305f\u3081\u3066 GPU\u306f\u51c4\u3044\u3068\u9a5a\u3044\u305f\u304c\u3001<br \/>\n<span class='my_fc_crimsonBBig'>CPU\u3068GPU\u306e\u5dee\u304c\u3069\u308c\u307b\u3069\u306a\u306e\u304b\uff1f<\/span><br \/>\n\u306e\u5b9f\u611f\u304c\u6301\u3066\u306a\u3044\u3002<\/p>\n<p>\u305d\u3053\u3067\u3001\u4eca\u56de\u306f\u30b7\u30f3\u30d7\u30eb\u306a 1\u6b21\u5143\u914d\u5217\uff08\u8981\u7d20\u657010<sup>9<\/sup>\u500b\uff09\u306e\u8db3\u3057\u7b97\u3067\u3001\u901f\u5ea6\u6027\u80fd\u3092\u6bd4\u8f03\u3057\u3066\u307f\u308b\u3053\u3068\u306b\u3057\u305f\u3002<\/p>\n<h1 class=\"my_h\">\u30102\u3011\u3084\u3063\u3066\u307f\u305f<\/h1>\n<h2 class=\"my_h\">1) \u6bd4\u8f03\u3059\u308b\u74b0\u5883<\/h2>\n<p>\u4ee5\u4e0b\u306e 3\u74b0\u5883\u3067\u540c\u3058\u30d7\u30ed\u30b0\u30e9\u30e0\u3092\u5b9f\u884c\u3057\u3001\u305d\u306e\u7d50\u679c\u3092\u6bd4\u8f03\u3059\u308b\u3002<br \/>\n<table class=\"my_tbl_simple\">\n<tr><th>#<\/th><th>\u30d7\u30ed\u30bb\u30c3\u30b5<\/th><th>\u5099\u8003<\/th><\/tr><tr><td>1<\/td><td>CPU<\/td><td>single thread\u5b9f\u884c<\/td><\/tr><tr><td>2<\/td><td>CPU<\/td><td>multi thread\u5b9f\u884c\uff08OpenMP\uff09<\/td><\/tr><tr><td>3<\/td><td>GPU<\/td><td>\u30d6\u30ed\u30c3\u30af\u6570\u6307\u5b9a\u306f\u6700\u5927\u5024\u3067\u3042\u308b 1024<\/td><\/tr>\n<\/table><\/p>\n<p>\u56e0\u307f\u306b\u3001\u4f7f\u7528\u3059\u308b CPU, GPU\u306f\u4ee5\u4e0b\u306e\u901a\u308a\u3002<br \/>\n<table class=\"my_tbl_simple\">\n<tr><td>CPU<\/td><td><a href=\"https:\/\/amzn.to\/4mAYFyj\" target=\"_blank\">Intel Core Ultle 7 265KF<\/a> (20cores)<\/td><\/tr><tr><td>GPU<\/td><td><a href=\"https:\/\/amzn.to\/4duPT0n\" target=\"_blank\">NVIDIA GeForce RTX 5070ti<\/a> (8960cores)<\/td><\/tr>\n<\/table><\/p>\n<h2 class=\"my_h\">2) \u5b9f\u9a13\u5185\u5bb9<\/h2>\n<p>4\u30d0\u30a4\u30c8\u6d6e\u52d5\u5c0f\u6570\u70b9\u6570\u306e\u914d\u5217\u306e\u8db3\u3057\u7b97\u3092\u3084\u3089\u305b\u308b\u3002<br \/>\n\u5f62\u5f0f\u8a00\u8a9e\u7684\u306b\u66f8\u3051\u3070\u3053\u3093\u306a\u611f\u3058\u3060\u3002<\/p>\n<pre class='my_pre_python'>\r\nfloat A[1_000_000_000], B[1_000_000_000], C[1_000_000_000];\r\nC[i] = A[i] + B[i];  \/\/ for i = 0 to 999_999_999\r\n<\/pre>\n<p>\u3082\u3057\u304f\u306f\u3001\u3053\u3093\u306a\u611f\u3058\u3060\u3002<\/p>\n<pre class='my_pre_python'>\r\n\u2200 i \u2208 [0, N):  C[i] := A[i] + B[i]\r\n<\/pre>\n<p>\u914d\u5217\u306e\u8981\u7d20\u6570\u306f 10<sup>9<\/sup>\u500b\u3001\u3059\u306a\u308f\u3061 <span class='my_fc_deeppinkBBig'>10\u5104\u500b<\/span> \u3060\u3002<\/p>\n<p><span class='my_fc_redBBig'>\u300c4\u30d0\u30a4\u30c8\u6d6e\u52d5\u5c0f\u6570\u70b9\u6570\u306e\u8a08\u7b97\u3092\u624b\u8a08\u7b97\u3067 10\u5104\u56de\u3084\u3063\u3066\u304f\u3060\u3055\u3044\u300210\u5104\u5186\u3042\u3052\u307e\u3059\u3002\u300d<\/span><br \/>\n\u3068\u8a00\u308f\u308c\u3066\u3082\u7d76\u5bfe\u306b\u65ad\u308b\u3002<\/p>\n<p><span class='my_fc_redBBig'>\u4eba\u529b\u3067 5\u79d2\u306b\u4e00\u3064\u3001<br \/>\n\u5bdd\u305a\u306b\u8a08\u7b97\u3057\u305f\u3068\u3057\u3066 158\u5e74\u304b\u304b\u308b\u30fb\u30fb\u30fb<\/span><\/p>\n<h2 class=\"my_h\">3) \u5b9f\u9a13\u7528\u30d7\u30ed\u30b0\u30e9\u30e0<\/h2>\n<p>CPU\u7528\u3001GPU\u7528\u306e\u4e8c\u7a2e\u985e\u306e\u30d7\u30ed\u30b0\u30e9\u30e0\u3092\u7528\u610f\u3057\u305f\u3002<br \/>\nCPU\u7248\u306e single-core or multi-core \u306f\u3001\u30b3\u30f3\u30d1\u30a4\u30eb\u30b9\u30a4\u30c3\u30c1\u6307\u5b9a\u3067\u5206\u3051\u308b\u3002<\/p>\n<h3 class=\"my_h\">(1) CPU\u7528\u5b9f\u9a13\u30b3\u30fc\u30c9<\/h3>\n<p><span class='my_fc_crimsonBBig'>\u6ce8\u610f\uff1a<\/span><br \/>\n\u3053\u306e\u30d7\u30ed\u30b0\u30e9\u30e0\u3067\u306f\u3001<span class='my_fc_crimsonBBig'>sizeof(float) x 10\u5104\u500b x 3\u30bb\u30c3\u30c8 = 12GB<\/span> \u306e\u30e1\u30e2\u30ea\u3092 allocate\u3057\u3066\u3044\u308b\u3002<br \/>\n\u30e1\u30e2\u30ea\u642d\u8f09\u91cf\u306e\u5c0f\u3055\u3044\u30b7\u30b9\u30c6\u30e0\u3067\u5b9f\u884c\u3059\u308b\u5834\u5408\u306f\u3001\u500b\u6570\u3092\u6e1b\u3089\u3059\u5fc5\u8981\u304c\u3042\u308b\u3002<\/p>\n<pre class=\"brush: cpp; title: cpu.c; notranslate\" title=\"cpu.c\">\r\n#include &lt;stdio.h&gt;\r\n#include &lt;stdlib.h&gt;\r\n#include &lt;time.h&gt;\r\n\r\n#define N 1000000000\r\n\r\n#ifdef USE_OPENMP\r\n#include &lt;omp.h&gt;\r\n#endif\r\n\r\n\/*\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/*\/\r\nint main() {\r\n    size_t size = N * sizeof(float);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    \/* \u30c7\u30fc\u30bf\u4f5c\u6210 *\/\r\n    float *A = malloc(size);\r\n    float *B = malloc(size);\r\n    float *C = malloc(size);\r\n    for (int i = 0; i &lt; N; i++) {\r\n        A&#x5B;i] = 1.0f;\r\n        B&#x5B;i] = 2.0f;\r\n    }\r\n    \/*--------------------------------------------------------------------------*\/\r\n    struct timespec start, end;\r\n    clock_gettime(CLOCK_MONOTONIC, &amp;start);     \/* \u6642\u9593\u8a08\u6e2c\u958b\u59cb *\/\r\n    \/****************************************************************************&gt;&gt;&gt; \u8a08\u6e2c\u533a\u9593 *\/\r\n    \/* \u6f14\u7b97\u5b9f\u884c *\/\r\n    #pragma omp parallel for\r\n    for (int i = 0; i &lt; N; i++) {\r\n        C&#x5B;i] = A&#x5B;i] + B&#x5B;i];\r\n    }\r\n    \/****************************************************************************&lt;&lt;&lt; \u8a08\u6e2c\u533a\u9593 *\/\r\n    clock_gettime(CLOCK_MONOTONIC, &amp;end);       \/* \u6642\u9593\u8a08\u6e2c\u7d42\u4e86 *\/\r\n    long sec_diff  = end.tv_sec  - start.tv_sec;\r\n    long nsec_diff = end.tv_nsec - start.tv_nsec;\r\n    double elapsed_ms = sec_diff * 1000.0 + nsec_diff \/ 1e6;\r\n    printf(&quot;time: %.3f ms\\n&quot;, elapsed_ms);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    \/* \u30e1\u30e2\u30ea\u89e3\u653e *\/\r\n    free(A); free(B); free(C);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    return 0;\r\n}\r\n<\/pre>\n<p>CPU\u7528\u30d7\u30ed\u30b0\u30e9\u30e0\u3092\u30b3\u30f3\u30d1\u30a4\u30eb\u3057\u3001Single thread\u7528\u30d7\u30ed\u30b0\u30e9\u30e0 <span class='my_fc_deeppinkB'>cpu_1<\/span> \u3092\u751f\u6210\u3059\u308b\u3002<\/p>\n<pre class='my_pre_bgBlack'>\r\n$ <span class='my_fc_yellow'>gcc cpu.c -o cpu_1<\/span>\r\n<\/pre>\n<p>CPU\u7528\u30d7\u30ed\u30b0\u30e9\u30e0\u3092\u30b3\u30f3\u30d1\u30a4\u30eb\u3057\u3001Multi thread\u7528\u30d7\u30ed\u30b0\u30e9\u30e0 <span class='my_fc_deeppinkB'>cpu_N<\/span> \u3092\u751f\u6210\u3059\u308b\u3002<br \/>\n#pragma omp parallel for \u3068\u66f8\u3044\u305f\u3068\u3053\u308d\u304c\u30de\u30eb\u30c1\u30b9\u30ec\u30c3\u30c9\u5b9f\u884c\u30b3\u30fc\u30c9\u306b\u5c55\u958b\u3055\u308c\u308b\u3002<\/p>\n<pre class='my_pre_bgBlack'>\r\n$ <span class='my_fc_yellow'>gcc cpu.c -o cpu_N -fopenmp<\/span>\r\n<\/pre>\n<h3 class=\"my_h\">(2) GPU\u7528\u5b9f\u9a13\u30b3\u30fc\u30c9<\/h3>\n<p>CPU\u7248\u3068\u6bd4\u8f03\u3059\u308b\u3068\u3001\u4ee5\u4e0b\u306e\u51e6\u7406\u304c\u5897\u3048\u305f\u5206\u3060\u3051\u30b3\u30fc\u30c9\u91cf\u304c\u591a\u3044\u3002<br \/>\n\u30fbGPU\u30e1\u30e2\u30ea\u78ba\u4fdd<br \/>\n\u30fbCPU \u2192 GPU\u30c7\u30fc\u30bf\u8ee2\u9001\uff08INPUT\uff09<br \/>\n\u30fbGPU\u7528\u6f14\u7b97\u30b3\u30fc\u30c9 (CUDA)<br \/>\n\u30fbGPU \u2192 CPU\u30c7\u30fc\u30bf\u8ee2\u9001\uff08OUTPUT\uff09<\/p>\n<p><span class='my_fc_crimsonBBig'>\u307e\u305a\u306f\u3001\u4e0a\u8a18\u306e\u30aa\u30fc\u30d0\u30fc\u30d8\u30c3\u30c9\u90e8\u5206\u3092\u7121\u8996\u3057\u3001<br \/>\n\u7d14\u7c8b\u306b\u30d9\u30af\u30c8\u30eb\u8a08\u7b97\u3060\u3051\u3092\u5bfe\u8c61\u306b\u901f\u5ea6\u8a08\u6e2c\u3057\u3066\u307f\u308b\u3002<\/span><\/p>\n<p><span class='my_fc_crimsonBBig'>\u6ce8\u610f\uff1a<\/span><br \/>\n\u3053\u306e\u30d7\u30ed\u30b0\u30e9\u30e0\u3067\u306f\u3001\u30db\u30b9\u30c8(CPU)\u5074\u3001\u30c7\u30d0\u30a4\u30b9(GPU)\u5074\u3067\u305d\u308c\u305e\u308c\u306b<br \/>\n<span class='my_fc_crimsonBBig'>sizeof(float) x 10\u5104\u500b x 3\u30bb\u30c3\u30c8 = 12GB<\/span> \u306e\u30e1\u30e2\u30ea\u3092 allocate\u3057\u3066\u3044\u308b\u3002<br \/>\n\u30e1\u30e2\u30ea\u642d\u8f09\u91cf\u306e\u5c0f\u3055\u3044\u30b7\u30b9\u30c6\u30e0\u3067\u5b9f\u884c\u3059\u308b\u5834\u5408\u306f\u3001\u500b\u6570\u3092\u6e1b\u3089\u3059\u5fc5\u8981\u304c\u3042\u308b\u3002<\/p>\n<pre class=\"brush: cpp; title: gpu.cu; notranslate\" title=\"gpu.cu\">\r\n#include &lt;stdio.h&gt;\r\n#include &lt;cuda_runtime.h&gt;\r\n\r\n#define N 1000000000\r\n#define THREADS_PER_BLOCK 1024\r\n\r\n\/*\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/*\/\r\n__global__ void vector_add(float *A, float *B, float *C, int n) {\r\n    int i = blockIdx.x * blockDim.x + threadIdx.x;\r\n    if (i &lt; n) {\r\n        C&#x5B;i] = A&#x5B;i] + B&#x5B;i];\r\n    }\r\n}\r\n\r\n\/*\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/\/*\/\r\nint main() {\r\n    size_t size = N * sizeof(float);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    \/* \u30c7\u30fc\u30bf\u4f5c\u6210 *\/\r\n    float *A = (float*)malloc(size);\r\n    float *B = (float*)malloc(size);\r\n    float *C = (float*)malloc(size);\r\n    for (int i = 0; i &lt; N; i++) {\r\n        A&#x5B;i] = 1.0f;\r\n        B&#x5B;i] = 2.0f;\r\n    }\r\n    \/*--------------------------------------------------------------------------*\/\r\n    \/* CPU \u2192 GPU\u30c7\u30fc\u30bf\u8ee2\u9001 *\/\r\n    float *d_A, *d_B, *d_C;\r\n    cudaMalloc(&amp;d_A, size);\r\n    cudaMalloc(&amp;d_B, size);\r\n    cudaMalloc(&amp;d_C, size);\r\n    cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);\r\n    cudaMemcpy(d_B, B, size, cudaMemcpyHostToDevice);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    struct timespec start, end;\r\n    clock_gettime(CLOCK_MONOTONIC, &amp;start);     \/* \u6642\u9593\u8a08\u6e2c\u958b\u59cb *\/\r\n    \/****************************************************************************&gt;&gt;&gt; \u8a08\u6e2c\u533a\u9593 *\/\r\n    \/* \u6f14\u7b97\u5b9f\u884c *\/\r\n    int blocks = (N + THREADS_PER_BLOCK - 1) \/ THREADS_PER_BLOCK;\r\n    vector_add &lt;&lt;&lt; blocks, THREADS_PER_BLOCK &gt;&gt;&gt; (d_A, d_B, d_C, N);\r\n    cudaDeviceSynchronize();     \/* GPU\u5074\u306e\u51e6\u7406\u5b8c\u4e86\u3068\u540c\u671f *\/\r\n    \/****************************************************************************&lt;&lt;&lt; \u8a08\u6e2c\u533a\u9593 *\/\r\n    clock_gettime(CLOCK_MONOTONIC, &amp;end);       \/* \u6642\u9593\u8a08\u6e2c\u7d42\u4e86 *\/\r\n    long sec_diff  = end.tv_sec  - start.tv_sec;\r\n    long nsec_diff = end.tv_nsec - start.tv_nsec;\r\n    double elapsed_ms = sec_diff * 1000.0 + nsec_diff \/ 1e6;\r\n    printf(&quot;time: %.3f ms\\n&quot;, elapsed_ms);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    \/* GPU \u2192 CPU\u30c7\u30fc\u30bf\u8ee2\u9001 *\/\r\n    cudaMemcpy(C, d_C, size, cudaMemcpyDeviceToHost);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    \/* \u30e1\u30e2\u30ea\u89e3\u653e *\/\r\n    cudaFree(d_A); cudaFree(d_B); cudaFree(d_C);\r\n    free(A); free(B); free(C);\r\n    \/*--------------------------------------------------------------------------*\/\r\n    return 0;\r\n}\r\n<\/pre>\n<p>GPU\u7528\u30bd\u30fc\u30b9\u30d5\u30a1\u30a4\u30eb\u306f <span class='my_fc_greenB'>nvcc\uff08NVIDIA Cuda Compiler\uff09<\/span> \u3067\u30b3\u30f3\u30d1\u30a4\u30eb\u3057\u3001\u5b9f\u884c\u30d7\u30ed\u30b0\u30e9\u30e0 <span class='my_fc_deeppinkB'>gpu<\/span> \u3092\u751f\u6210\u3059\u308b\u3002<\/p>\n<pre class='my_pre_bgBlack'>\r\n$ <span class='my_fc_yellow'>nvcc gpu.cu -o gpu<\/span>\r\n<\/pre>\n<h2 class=\"my_h\">4) \u5b9f\u884c\u7d50\u679c<\/h2>\n<p>\u524d\u8ff0\u306e 3\u7a2e\u985e\u306e\u30d7\u30ed\u30b0\u30e9\u30e0\u306e\u5b9f\u884c\u7d50\u679c\u306f\u4ee5\u4e0b\u306e\u901a\u308a\u3002<\/p>\n<pre class='my_pre_bgBlack'>\r\n$ <span class='my_fc_yellow'>.\/cpu_1<\/span>\r\ntime: 1536.077 ms\r\n\r\n$ <span class='my_fc_yellow'>.\/cpu_N<\/span>\r\ntime: 206.356 ms\r\n\r\n$ <span class='my_fc_yellow'>.\/gpu<\/span>\r\ntime: 15.783 ms\r\n<\/pre>\n<p>\u500b\u4eba\u7684\u306a\u671f\u5f85\u5024\u3088\u308a\u306f\u3060\u3044\u3076\u4f4e\u304b\u3063\u305f\u304c <span class='my_fc_deeppinkBBig'>GPU\u304c\u9ad8\u901f\u3060\u3002<\/span><\/p>\n<p>GPU\u306f\u3001CPU\uff08single-core\uff09\u306e <span class='my_fc_deeppinkBBig'>97\u500d<\/span><br \/>\nGPU\u306f\u3001CPU\uff0820 multi-cores\uff09\u306e <span class='my_fc_deeppinkBBig'>13\u500d<\/span><\/p>\n<h2 class=\"my_h\">5) \u30c7\u30fc\u30bf\u8ee2\u9001\u306e\u30aa\u30fc\u30d0\u30fc\u30d8\u30c3\u30c9\u6642\u9593\u3092\u542b\u3081\u3066\u8a08\u6e2c\u3057\u3066\u307f\u308b\u3002<\/h2>\n<p>\u4e0a\u306e\u65b9\u3067\u3001<br \/>\n<span class='my_fc_red'>\u307e\u305a\u306f\u3001\u4e0a\u8a18\u306e\u30aa\u30fc\u30d0\u30fc\u30d8\u30c3\u30c9\u90e8\u5206\u3092\u7121\u8996\u3057\u3001\u7d14\u7c8b\u306b\u30d9\u30af\u30c8\u30eb\u8a08\u7b97\u3060\u3051\u3092\u5bfe\u8c61\u306b\u901f\u5ea6\u8a08\u6e2c\u3057\u3066\u307f\u308b\u3002<\/span><br \/>\n\u3068\u66f8\u3044\u305f\u304c\u3001\u5b9f\u904b\u7528\u3059\u308b\u5834\u5408\u306b\u306f\u3001\u3053\u306e\u30aa\u30fc\u30d0\u30fc\u30d8\u30c3\u30c9\u90e8\u5206\u3092\u7121\u8996\u3059\u308b\u308f\u3051\u306b\u306f\u3044\u304b\u306a\u3044\u3002<\/p>\n<p><span class='my_fc_crimsonBBig'>\u51e6\u7406\u6642\u9593\u306e\u8a08\u6e2c\u7bc4\u56f2\u3092\u30e1\u30e2\u30ea\u8ee2\u9001\u3092\u542b\u3080\u7bc4\u56f2\u306b\u5909\u66f4\u3057\u3066\u307f\u305f\u3002<\/span><br \/>\n\u3053\u306e\u30d7\u30ed\u30b0\u30e9\u30e0\u3092\u5b9f\u884c\u3059\u308b\u3068\u30fb\u30fb\u30fb<\/p>\n<pre class='my_pre_bgBlack'>\r\n$ <span class='my_fc_yellow'>.\/gpu<\/span>\r\ntime: 2020.624 ms\r\n<\/pre>\n<p><span class='my_fc_redBBig'>\u3093\uff1f\uff1f\uff1f<\/span><\/p>\n<p>CPU\uff08Single thread\uff09\u3088\u308a\u3082\u9045\u304f\u306a\u3063\u305f\u305e\u30fb\u30fb\u30fb<\/p>\n<p>\u4ee5\u4e0b\u306e\u500b\u6240\u306b <span class='my_fc_redBBig'>+2005[ms]<\/span> \u306e\u6642\u9593\u304c\u304b\u304b\u3063\u305f\u3068\u3044\u3046\u3053\u3068\u3060\u3002<\/p>\n<pre class=\"brush: cpp; title: ; notranslate\" title=\"\">\r\n    \/* CPU \u2192 GPU\u30c7\u30fc\u30bf\u8ee2\u9001 *\/\r\n    float *d_A, *d_B, *d_C;\r\n    cudaMalloc(&amp;d_A, size);\r\n    cudaMalloc(&amp;d_B, size);\r\n    cudaMalloc(&amp;d_C, size);\r\n    cudaMemcpy(d_A, A, size, cudaMemcpyHostToDevice);\r\n    cudaMemcpy(d_B, B, size, cudaMemcpyHostToDevice);\r\n\uff1a\r\n    \/* GPU \u2192 CPU\u30c7\u30fc\u30bf\u8ee2\u9001 *\/\r\n    cudaMemcpy(C, d_C, size, cudaMemcpyDeviceToHost);\r\n<\/pre>\n<p>\u30e1\u30a4\u30f3\u306e\u30d9\u30af\u30c8\u30eb\u8a08\u7b97\u81ea\u4f53\u306f\u305f\u3063\u305f\u306e <span class='my_fc_blueBBig'>15.783[ms]<\/span> \u306a\u306e\u306b\u30fb\u30fb\u30fb<br \/>\n\u304a\u305d\u308b\u3079\u3057\u30e1\u30e2\u30ea\u8ee2\u9001\u30b3\u30b9\u30c8\u30fb\u30fb\u30fb<\/p>\n<h1 class=\"my_h\">\u30103\u3011\u6240\u611f<\/h1>\n<p>CUDA\u3067\u30d7\u30ed\u30b0\u30e9\u30e0\u3092\u5b9f\u88c5\u3059\u308b\u969b\u306b\u306f\u3001<br \/>\n<span class='my_fc_deeppinkBBig'>CPU(Host)-GPU(Device)\u9593\u306e\u30c7\u30fc\u30bf\u8ee2\u9001\u30b3\u30b9\u30c8\u306b\u6ce8\u610f\u3057\u307e\u3057\u3087\u3046\u3002<br \/>\nCPU(Host)-GPU(Device)\u9593\u306e\u30c7\u30fc\u30bf\u8ee2\u9001\u306e\u91cf\u3068\u983b\u5ea6\u3092\u6e1b\u3089\u305b\u308b\u3088\u3046\u306b\u3001\u8a2d\u8a08\u3092\u6700\u9069\u5316\u3057\u307e\u3057\u3087\u3046\u3002<\/span><br \/>\n\u3068\u3044\u3046\u3053\u3068\u3060\u306a\u3002<\/p>\n<p><a class=\"my_fs_big3\" href=\"https:\/\/www.dogrow.net\/nnet\/blog49-python-vs-c%e8%a8%80%e8%aa%9e%e3%81%a7cuda%e3%83%99%e3%82%af%e3%83%88%e3%83%ab%e8%a8%88%e7%ae%97%e9%80%9f%e5%ba%a6%e3%82%92%e6%af%94%e8%bc%83%e3%81%99%e3%82%8b%e3%80%82\/\">\u7d9a\u304d\u306f\u3053\u3061\u3089\u30fb\u30fb\u30fb<br \/>\n(49) Python vs C\u8a00\u8a9e\u3067CUDA\u30d9\u30af\u30c8\u30eb\u8a08\u7b97\u901f\u5ea6\u3092\u6bd4\u8f03\u3059\u308b\u3002<\/a><\/p>\n<hr class=\"my_hr_bottom\">\n","protected":false},"excerpt":{"rendered":"<p>Single processor, Multi processor\u3067\u306f\u3042\u308a\u307e\u305b\u3093\u3002 Single-core, Multi-core\u3067\u306e\u6bd4\u8f03\u3067\u3059\u3002 \u30101\u3011\u3084\u308a\u305f\u3044\u3053\u3068 \u904e\u53bb\u8a18\u4e8b (46)\u3010Othello AI\u3011\u30aa\u30bb\u30edAI\u306b\u2026 <span class=\"read-more\"><a href=\"https:\/\/www.dogrow.net\/nnet\/blog48-cpusingle-cpumulti-gpu%e3%81%a7%e3%83%99%e3%82%af%e3%83%88%e3%83%ab%e8%a8%88%e7%ae%97%e9%80%9f%e5%ba%a6%e3%82%92%e6%af%94%e8%bc%83%e3%81%99%e3%82%8b%e3%80%82\/\">\u7d9a\u304d\u3092\u8aad\u3080 &raquo;<\/a><\/span><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8,30,6,29],"tags":[],"class_list":["post-1721","post","type-post","status-publish","format-standard","hentry","category-cuda","category-openmp","category-6","category-29"],"views":769,"amp_enabled":true,"_links":{"self":[{"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/posts\/1721","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/comments?post=1721"}],"version-history":[{"count":58,"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/posts\/1721\/revisions"}],"predecessor-version":[{"id":1989,"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/posts\/1721\/revisions\/1989"}],"wp:attachment":[{"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/media?parent=1721"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/categories?post=1721"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.dogrow.net\/nnet\/wp-json\/wp\/v2\/tags?post=1721"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}