Google Cloud Speech-to-Text
Как транскрибировать длинный (более 60 сек) файл с помощью платформы Google Cloud
Подготовка к выполнению проекта:
- Подключиться к Google Cloud консоли
- Подключиться к существующему проекту или создать новый проект:
- Подключить проект с billing аккаунту (для того, чтобы Гугл понимал, кто будет платить)
- Подключить инструмент Cloud Speech-to-Text API к проекту
- Создаем и подключаем Гугл хранилище
Страница how-to у Google по транскрибации коротких аудиофайлов
Страница how-to у Google по транскрибации длинных аудиофайлов
- Предполагается, что вся подготовка сделана (есть проект, он подключен на локальной машине, проект на платформе подключен к платежному аккаунту, модуль распознавания речи подключен к проекту, есть сервисный аккаунт, этому аккаунту сгенерирован ключ, этот ключ загружен на локальную машину и мы знаем где он, команда bash>
- Для транскрибации нужно подготовить аудио-файл и закинуть его в хранилище Google, подключенное к проекту.
- Файл на локальной машине нужно закинуть в отдельную директорию. Туда же закинуть файл sync-request.json
- Для файла нужно выяснить его характеристики (bash> ffprobe [имя_ файла]. Затем правим файл sync-request.json:
- указываем характеристики звукового файла
- даем ссылку на файл в хранилище Гугла (открываем корзину в консоли, три точки рядом с именем файла, затем copy gsutil uri
- указываем желательное имя выходного файла
- Открываем терминал в этой директории
- экспортируем ключ bash>export GOOGLE_APPLICATION_CREDENTIALS=»[путь_к_ключу]»
- проверяем экспорт bash> gcloud auth application-default print-access-token печатает длинный токен
- Запускам транскрибацию на серверах Гугл:
- bash> curl -X POST -H «Authorization: Bearer «$(gcloud auth application-default print-access-token) -H «Content-Type: application/json; charset=utf-8» -d@sync-request.json «https://speech.googleapis.com/v1/speech:longrunningrecognize»
- ответом в формате json получим длинное целое — ID задания
- через какое-то время проверяем хранилище — должен лежать выходной файл с указанным именем (формат json) — скачиваем его