CUDA プログラミング - Runtime API

関数のカテゴリ

カテゴリ	概要
デバイス管理	デバイス（GPU）とのインターフェースを管理し、現在使用するデバイスの選択や、タスクの同期を行う
メモリ管理	デバイスメモリの割り当てと解放、ホストメモリとのデータ転送などを管理
ストリーム管理	CUDA ストリームを用いた非同期処理の管理で、複数のタスクを効率的に実行する
エラーハンドリング	CUDA API 呼び出しで発生したエラーの取得や確認を行う
イベント管理	非同期イベントの作成と管理、イベント間の経過時間の計測などに使用
ホスト管理	ホスト側メモリの操作や、デバイスとのデータ転送の最適化のためのピン留めメモリを管理
アクセラレータ管理	CUDA カーネルの実行や、カーネル固有のキャッシュ設定の変更を行う

主要な関数

カテゴリ	関数名	概要
デバイス管理	cudaSetDevice	指定したデバイスを現在のスレッドで使用する設定
	cudaGetDevice	現在のスレッドが使用しているデバイスを取得
	cudaDeviceReset	現在のデバイスをリセットし、全リソースを解放
	cudaDeviceSynchronize	デバイス上のすべてのタスクが完了するまでブロック
	cudaGetDeviceProperties	デバイスの特性情報（メモリ、コア数など）を取得
メモリ管理	cudaMalloc	デバイスメモリを確保
	cudaFree	デバイスメモリを解放
	cudaMemcpy	ホストとデバイス間でメモリをコピー（同期型）
	cudaMemcpyAsync	ホストとデバイス間で非同期メモリコピーを行う
	cudaMemset	デバイスメモリを特定の値で初期化
ストリーム管理	cudaStreamCreate	新しいストリームを作成
	cudaStreamDestroy	ストリームを破棄し、リソースを解放
	cudaStreamSynchronize	指定したストリーム上のタスクが完了するまで待機
	cudaStreamWaitEvent	イベントが発生するまで、ストリーム内の実行を待機
エラーハンドリング	cudaGetLastError	直前に発生したCUDAエラーコードを取得
	cudaPeekAtLastError	最後に発生したエラーコードを確認（リセットはされない）
	cudaGetErrorString	エラーコードに対応するエラーメッセージを取得
イベント管理	cudaEventCreate	新しいイベントを作成
	cudaEventRecord	イベントを特定のストリーム上に記録
	cudaEventSynchronize	イベントが完了するまで待機
	cudaEventElapsedTime	2つのイベント間の経過時間を計測
ホスト管理	cudaHostAlloc	ホスト側でデバイスと共有するためのピン留めメモリを確保
	cudaHostFree	ホスト側で確保したピン留めメモリを解放
アクセラレータ管理	cudaLaunchKernel	CUDAカーネルを非同期で実行
	cudaFuncSetCacheConfig	カーネルのキャッシュ設定を変更（キャッシュ/共有メモリ比率など）

索引

関数名	概要
cudaAcquireSync
cudaArrayGetInfo
cudaBindTextureToArray
cudaBlockSize
cudaCalculateSlopeKernel
cudaCheckError
cudaConsumerAcquireFrame
cudaConsumerReleaseFrame
cudaConsumerTest
cudaCreateChannelDesc
cudaCreateSurfaceObject
cudaCreateTextureObject
cudaDestroyExternalMemory
cudaDestroyExternalSemaphore
cudaDestroySurfaceObject
cudaDestroyTextureObject
cudaDeviceCanAccessPeer
cudaDeviceCreateConsumer
cudaDeviceCreateProducer
cudaDeviceDisablePeerAccess
cudaDeviceEnablePeerAccess
cudaDeviceGetAttribute
cudaDeviceGetDefaultMemPool
cudaDeviceGetGraphMemAttribute
cudaDeviceGetNvSciSyncAttributes
cudaDeviceGetStreamPriorityRange
cudaDeviceGraphMemTrim
cudaDeviceId
cudaDeviceInit
cudaDeviceReset
cudaDeviceSetLimit
cudaDeviceSynchronize
cudaDriverGetVersion
cudaEventCreate
cudaEventCreateWithFlags
cudaEventDestroy
cudaEventElapsedTime
cudaEventQuery
cudaEventRecord
cudaEventSynchronize
cudaExtent
cudaExternalMemoryGetMappedBuffer
cudaExternalMemoryGetMappedMipmappedArray
cudaFree
cudaFreeArray
cudaFreeAsync
cudaFreeHost
cudaFreeMipmappedArray
cudaFuncGetAttributes
cudaFuncSetAttribute
cudaFuncSetCacheConfig
cudaGLInit
cudaGLMapBufferObject
cudaGLRegisterBufferObject
cudaGLUnmapBufferObject
cudaGLUnregisterBufferObject
cudaGenerateSpectrumKernel
cudaGetChannelDesc
cudaGetDevice
cudaGetDeviceCount
cudaGetDeviceProperties
cudaGetErrorEnum
cudaGetErrorName
cudaGetErrorString
cudaGetLastError
cudaGetMipmappedArrayLevel
cudaGetValueMismatch
cudaGraphAddHostNode
cudaGraphAddKernelNode
cudaGraphAddMemAllocNode
cudaGraphAddMemFreeNode
cudaGraphAddMemcpyNode
cudaGraphAddMemsetNode
cudaGraphAddNode
cudaGraphClone
cudaGraphConditionalHandleCreate
cudaGraphCreate
cudaGraphDestroy
cudaGraphExecDestroy
cudaGraphExecKernelNodeSetParams
cudaGraphExecUpdate
cudaGraphGetNodes
cudaGraphInstantiate
cudaGraphLaunch
cudaGraphSetConditional
cudaGraphUpload
cudaGraphicsGLRegisterBuffer
cudaGraphicsGLRegisterImage
cudaGraphicsMapResources
cudaGraphicsResourceGetMappedPointer
cudaGraphicsResourceSetMapFlags
cudaGraphicsSubResourceGetMappedArray
cudaGraphicsUnmapResources
cudaGraphicsUnregisterResource
cudaGraphsManual
cudaGraphsUsingStreamCapture
cudaGridSize
cudaHeightMap
cudaHostAlloc
cudaHostGetDevicePointer
cudaHostRegister
cudaHostUnregister
cudaImportExternalMemory
cudaImportExternalSemaphore
cudaImportKeyedMutex
cudaImportNvSciImage
cudaImportNvSciRawBuf
cudaImportNvSciSemaphore
cudaImportNvSciSync
cudaImportVertexBuffer
cudaInit
cudaIpcCloseMemHandle
cudaIpcGetEventHandle
cudaIpcGetMemHandle
cudaIpcOpenEventHandle
cudaIpcOpenMemHandle
cudaLaunchCooperativeKernel
cudaLaunchHostFunc
cudaMalloc
cudaMallocArray
cudaMallocAsync
cudaMallocHost
cudaMallocManaged
cudaMallocMipmappedArray
cudaMallocPitch
cudaMemAdvise
cudaMemGetInfo
cudaMemPoolCreate
cudaMemPoolDestroy
cudaMemPoolExportPointer
cudaMemPoolExportToShareableHandle
cudaMemPoolGetAccess
cudaMemPoolImportFromShareableHandle
cudaMemPoolImportPointer
cudaMemPoolSetAccess
cudaMemPoolSetAttribute
cudaMemPrefetchAsync
cudaMemcpy
cudaMemcpyAsync
cudaMemcpyFromSymbol
cudaMemcpyPeerAsync
cudaMemcpyToArray
cudaMemcpyToSymbol
cudaMemset
cudaMemsetAsync
cudaNvSci
cudaNvSciApp
cudaNvSciSignal
cudaNvSciWait
cudaOccupancyMaxActiveBlocksPerMultiprocessor
cudaOccupancyMaxPotentialBlockSize
cudaPeekAtLastError
cudaPitchedPtr
cudaPos
cudaProcess
cudaProducerDeinit
cudaProducerInit
cudaProducerPrepareFrame
cudaProducerPresentFrame
cudaProducerReadARGBFrame
cudaProducerReadYUVFrame
cudaProducerReturnFrame
cudaProducerTest
cudaProfilerStart
cudaProfilerStop
cudaReleaseSync
cudaRuntimeGetVersion
cudaSetDevice
cudaSetDeviceFlags
cudaSignalExternalSemaphoresAsync
cudaSignalSemaphore
cudaStreamAddCallback
cudaStreamAttachMemAsync
cudaStreamBeginCapture
cudaStreamBeginCaptureToGraph
cudaStreamCreate
cudaStreamCreateWithFlags
cudaStreamCreateWithPriority
cudaStreamDestroy
cudaStreamEndCapture
cudaStreamGetCaptureInfo
cudaStreamGetFlags
cudaStreamQuery
cudaStreamSetAttribute
cudaStreamSynchronize
cudaStreamWaitEvent
cudaTimelineSemaphore
cudaUnbindTexture
cudaUpdateHeightmapKernel
cudaUpdateVkImage
cudaVertMem
cudaVkImportImageMem
cudaVkImportSemaphore
cudaVkSemaphoreSignal
cudaVkSemaphoreWait
cudaWaitExternalSemaphoresAsync
cudaWaitSemaphore
cudaXtFree

cudaDeviceProp

CUDA プログラムで使用するデバイス（GPU）の特性情報を取得するための構造体
この構造体には、GPUの性能やメモリに関する詳細な情報が含まれている
構造体を利用してプログラムをデバイスに最適化したり、異なるデバイス間での動作を調整したりすることが可能
CUDA の各デバイスのプロパティを取得するために cudaGetDeviceProperties() 関数を使用して取得

構造体の主なフィールドとその役割

フィールド名	説明
name	デバイス名（例: “Tesla V100”）
totalGlobalMem	デバイスのグローバルメモリの合計量（バイト単位）
sharedMemPerBlock	各ブロックあたりの共有メモリ量（バイト単位）
regsPerBlock	各ブロックあたりのレジスタ数
warpSize	ワープサイズ（通常32）
memPitch	メモリピッチの最大値（バイト単位）
maxThreadsPerBlock	各ブロック内で使用できる最大スレッド数
maxThreadsDim[3]	ブロック内での各次元（x、y、z）の最大スレッド数
maxGridSize[3]	グリッドの各次元（x、y、z）の最大サイズ
clockRate	クロックレート（kHz単位）
multiProcessorCount	マルチプロセッサ（SM）の数
computeCapability	CUDAコンピュートキャパビリティ（例: 7.0）
major or minor	コンピュートキャパビリティのメジャーおよびマイナー番号
textureAlignment	テクスチャメモリのアライメント
deviceOverlap	デバイスのコピーとカーネル実行のオーバーラップの可否
integrated	統合型デバイスかどうかのフラグ（0ならディスクリートGPU、1なら統合GPU）

使用例

#include <cuda_runtime.h>
#include <iostream>
 
int main() {
    int deviceCount;
    // 利用可能なデバイスの数を取得
    cudaGetDeviceCount(&deviceCount);
 
    for (int i = 0; i < deviceCount; ++i) {
        cudaDeviceProp prop;
        // 指定したデバイスのプロパティを取得し、cudaDeviceProp 構造体に格納
        cudaGetDeviceProperties(&prop, i);
 
        std::cout << "Device " << i << ": " << prop.name << "\n";
        std::cout << "  Total Global Memory: " << prop.totalGlobalMem / (1024 * 1024) << " MB\n";
        std::cout << "  Shared Memory per Block: " << prop.sharedMemPerBlock << " bytes\n";
        std::cout << "  Registers per Block: " << prop.regsPerBlock << "\n";
        std::cout << "  Warp Size: " << prop.warpSize << "\n";
        std::cout << "  Max Threads per Block: " << prop.maxThreadsPerBlock << "\n";
        std::cout << "  Max Threads Dimension: [" << prop.maxThreadsDim[0] << ", " << prop.maxThreadsDim[1] << ", " << prop.maxThreadsDim[2] << "]\n";
        std::cout << "  Max Grid Size: [" << prop.maxGridSize[0] << ", " << prop.maxGridSize[1] << ", " << prop.maxGridSize[2] << "]\n";
        std::cout << "  Clock Rate: " << prop.clockRate / 1000 << " MHz\n";
        std::cout << "  Multi Processor Count: " << prop.multiProcessorCount << "\n";
        std::cout << "  Compute Capability: " << prop.major << "." << prop.minor << "\n";
    }
 
    return 0;
}