Google Cloud Speech-to-Text

Google Cloud Speech-to-Text

Как транскрибировать длинный (более 60 сек) файл с помощью платформы Google Cloud

Подготовка к выполнению проекта:

Список доступных how-to

Страница how-to у Google по транскрибации коротких аудиофайлов

Страница how-to у Google по транскрибации длинных аудиофайлов

  1. Предполагается, что вся подготовка сделана (есть проект, он подключен на локальной машине, проект на платформе подключен к платежному аккаунту, модуль распознавания речи подключен к проекту, есть сервисный аккаунт, этому аккаунту сгенерирован ключ, этот ключ загружен на локальную машину и мы знаем где он, команда bash>
  2. Для транскрибации нужно подготовить аудио-файл и закинуть его в хранилище Google, подключенное к проекту.
  3. Файл на локальной машине нужно закинуть в отдельную директорию. Туда же закинуть файл sync-request.json
  4. Для файла нужно выяснить его характеристики (bash> ffprobe [имя_ файла]. Затем правим файл sync-request.json:
    • указываем характеристики звукового файла
    • даем ссылку на файл в хранилище Гугла (открываем корзину в консоли, три точки рядом с именем файла, затем copy gsutil uri
    • указываем желательное имя выходного файла
  5. Открываем терминал в этой директории
    • экспортируем ключ bash>export GOOGLE_APPLICATION_CREDENTIALS=»[путь_к_ключу]»
    • проверяем экспорт bash> gcloud auth application-default print-access-token печатает длинный токен
  6. Запускам транскрибацию на серверах Гугл:
    • bash> curl -X POST -H «Authorization: Bearer «$(gcloud auth application-default print-access-token) -H «Content-Type: application/json; charset=utf-8» -d@sync-request.json «https://speech.googleapis.com/v1/speech:longrunningrecognize»
    • ответом в формате json получим длинное целое — ID задания
    • через какое-то время проверяем хранилище — должен лежать выходной файл с указанным именем (формат json) — скачиваем его