В Neural Networks HAL 1.2 представлена концепция пакетного выполнения. Пакетные исполнения — это последовательность выполнения одной и той же подготовленной модели, которые происходят в быстрой последовательности, например, при работе с кадрами, снятыми с камеры, или с последовательными аудиосэмплами. Пакетный объект используется для управления набором пакетных выполнения и для сохранения ресурсов между выполнениями, что позволяет выполнениям иметь меньшие накладные расходы. Пакетные объекты допускают три оптимизации:
- Пакетный объект создается перед последовательностью выполнения и освобождается после завершения последовательности. По этой причине время жизни пакетного объекта указывает драйверу, как долго он должен оставаться в состоянии высокой производительности.
- Пакетный объект может сохранять ресурсы между выполнениями. Например, драйвер может сопоставить объект памяти при первом выполнении и кэшировать отображение в пакетном объекте для повторного использования при последующих выполнениях. Любой кэшированный ресурс может быть освобожден, когда пакетный объект уничтожен или когда среда выполнения NNAPI уведомляет пакетный объект о том, что ресурс больше не требуется.
- Пакетный объект использует очереди быстрых сообщений (FMQ) для взаимодействия между приложениями и процессами драйвера. Это может уменьшить задержку, поскольку FMQ обходит HIDL и передает данные непосредственно другому процессу через атомарный циклический FIFO в общей памяти. Процесс-потребитель знает, что нужно извлечь элемент из очереди и начать обработку либо путем опроса количества элементов в FIFO, либо путем ожидания флага события FMQ, о котором сигнализирует производитель. Этот флаг события представляет собой быстрый мьютекс пользовательского пространства (фьютекс).
FMQ — это низкоуровневая структура данных, которая не дает никаких гарантий срока службы для процессов и не имеет встроенного механизма для определения того, работает ли процесс на другом конце FMQ должным образом. Следовательно, если производитель FMQ умрет, потребитель может застрять в ожидании данных, которые так и не поступят. Одним из решений этой проблемы является то, что драйвер свяжет FMQ с объектом пакета более высокого уровня, чтобы определить, когда выполнение пакета закончилось.
Поскольку пакетное выполнение работает с теми же аргументами и возвращает те же результаты, что и другие пути выполнения, базовые FMQ должны передавать одни и те же данные в драйверы службы NNAPI и обратно. Однако FMQ могут передавать только старые типы данных. Передача сложных данных осуществляется путем сериализации и десериализации вложенных буферов (векторных типов) непосредственно в FMQ и использования объектов обратного вызова HIDL для передачи дескрипторов пула памяти по требованию. Сторона-производитель FMQ должна отправлять сообщения запроса или результата потребителю атомарно, используя MessageQueue::writeBlocking
, если очередь блокируется, или с помощью MessageQueue::write
если очередь неблокирующая.
Пакетные интерфейсы
Пакетные интерфейсы для Neural Networks HAL находятся в hardware/interfaces/neuralnetworks/1.2/
и описаны ниже. Дополнительную информацию о пакетных интерфейсах на уровне NDK см. frameworks/ml/nn/runtime/include/NeuralNetworks.h
.
типы.hal
types.hal
определяет тип данных, которые отправляются через FMQ.
-
FmqRequestDatum
: отдельный элемент сериализованного представления объектаRequest
выполнения и значенияMeasureTiming
, которое отправляется через очередь быстрых сообщений. -
FmqResultDatum
: отдельный элемент сериализованного представления значений, возвращаемых в результате выполнения (ErrorStatus
,OutputShapes
иTiming
), который возвращается через быструю очередь сообщений.
IBurstContext.hal
IBurstContext.hal
определяет объект интерфейса HIDL, который находится в службе нейронных сетей.
-
IBurstContext
: объект контекста для управления ресурсами пакета.
IBurstCallback.hal
IBurstCallback.hal
определяет объект интерфейса HIDL для обратного вызова, созданного средой выполнения нейронных сетей, и используется службой нейронных сетей для получения объектов hidl_memory
соответствующих идентификаторам слотов.
- IBurstCallback : объект обратного вызова, используемый службой для извлечения объектов памяти.
IPreparedModel.hal
IPreparedModel.hal
расширен в HAL 1.2 методом создания объекта IBurstContext
из подготовленной модели.
-
configureExecutionBurst
: настраивает пакетный объект, используемый для быстрого последовательного выполнения нескольких выводов по подготовленной модели.
Поддержка пакетного выполнения в драйвере
Самый простой способ поддержки пакетных объектов в службе HIDL NNAPI — использовать служебную функцию Burst ::android::nn::ExecutionBurstServer::create
, которая находится в ExecutionBurstServer.h
и упакована в статические библиотеки libneuralnetworks_common
и libneuralnetworks_util
. Эта фабричная функция имеет две перегрузки:
- Одна перегрузка принимает указатель на объект
IPreparedModel
. Эта служебная функция использует методexecuteSynchronously
в объектеIPreparedModel
для выполнения модели. - Одна перегрузка принимает настраиваемый объект
IBurstExecutorWithCache
, который можно использовать для кэширования ресурсов (таких как сопоставленияhidl_memory
), которые сохраняются при нескольких выполнениях.
Каждая перегрузка возвращает объект IBurstContext
(который представляет объект пакета), который содержит собственный выделенный поток прослушивателя и управляет им. Этот поток получает запросы из FMQ requestChannel
, выполняет вывод, а затем возвращает результаты через FMQ resultChannel
. Этот поток и все другие ресурсы, содержащиеся в объекте IBurstContext
, автоматически освобождаются, когда клиент пакета теряет ссылку на IBurstContext
.
Альтернативно вы можете создать собственную реализацию IBurstContext
, которая понимает, как отправлять и получать сообщения через FMQ requestChannel
и resultChannel
передаваемые в IPreparedModel::configureExecutionBurst
.
Утилиты пакетной обработки находятся в ExecutionBurstServer.h
.
/**
* Create automated context to manage FMQ-based executions.
*
* This function is intended to be used by a service to automatically:
* 1) Receive data from a provided FMQ
* 2) Execute a model with the given information
* 3) Send the result to the created FMQ
*
* @param callback Callback used to retrieve memories corresponding to
* unrecognized slots.
* @param requestChannel Input FMQ channel through which the client passes the
* request to the service.
* @param resultChannel Output FMQ channel from which the client can retrieve
* the result of the execution.
* @param executorWithCache Object which maintains a local cache of the
* memory pools and executes using the cached memory pools.
* @result IBurstContext Handle to the burst context.
*/
static sp<ExecutionBurstServer> create(
const sp<IBurstCallback>& callback, const FmqRequestDescriptor& requestChannel,
const FmqResultDescriptor& resultChannel,
std::shared_ptr<IBurstExecutorWithCache> executorWithCache);
/**
* Create automated context to manage FMQ-based executions.
*
* This function is intended to be used by a service to automatically:
* 1) Receive data from a provided FMQ
* 2) Execute a model with the given information
* 3) Send the result to the created FMQ
*
* @param callback Callback used to retrieve memories corresponding to
* unrecognized slots.
* @param requestChannel Input FMQ channel through which the client passes the
* request to the service.
* @param resultChannel Output FMQ channel from which the client can retrieve
* the result of the execution.
* @param preparedModel PreparedModel that the burst object was created from.
* IPreparedModel::executeSynchronously will be used to perform the
* execution.
* @result IBurstContext Handle to the burst context.
*/
static sp<ExecutionBurstServer> create(const sp<IBurstCallback>& callback,
const FmqRequestDescriptor& requestChannel,
const FmqResultDescriptor& resultChannel,
IPreparedModel* preparedModel);
Ниже приведена эталонная реализация пакетного интерфейса, найденная в образце драйвера нейронных сетей по адресу frameworks/ml/nn/driver/sample/SampleDriver.cpp
.
Return<void> SamplePreparedModel::configureExecutionBurst(
const sp<V1_2::IBurstCallback>& callback,
const MQDescriptorSync<V1_2::FmqRequestDatum>& requestChannel,
const MQDescriptorSync<V1_2::FmqResultDatum>& resultChannel,
configureExecutionBurst_cb cb) {
NNTRACE_FULL(NNTRACE_LAYER_DRIVER, NNTRACE_PHASE_EXECUTION,
"SampleDriver::configureExecutionBurst");
// Alternatively, the burst could be configured via:
// const sp<V1_2::IBurstContext> burst =
// ExecutionBurstServer::create(callback, requestChannel,
// resultChannel, this);
//
// However, this alternative representation does not include a memory map
// caching optimization, and adds overhead.
const std::shared_ptr<BurstExecutorWithCache> executorWithCache =
std::make_shared<BurstExecutorWithCache>(mModel, mDriver, mPoolInfos);
const sp<V1_2::IBurstContext> burst = ExecutionBurstServer::create(
callback, requestChannel, resultChannel, executorWithCache);
if (burst == nullptr) {
cb(ErrorStatus::GENERAL_FAILURE, {});
} else {
cb(ErrorStatus::NONE, burst);
}
return Void();
}