Адрес для входа в РФ: exler.world
Автоматический перевод видеороликов - вопросы
Читаю новость о том, что в "Яндексе" создали "не имеющую аналогов в мире технологию автоматического перевода видеороликов".
«Яндекс» создал технологию машинного перевода видео. С ее помощью видеоролики зарубежных авторов смогут посмотреть даже те, кто не владеет иностранными языками – разработка «Яндекса» в автоматическом режиме переведет видео на русский язык и озвучит его закадровым голосом. Об этом CNews рассказали представители компании. По заявлению создателей, технология не имеет аналогов в мире.
На сегодняшний день у «Яндекса» готов прототип системы машинного перевода. Сейчас он работает только с роликами на английском языке. Разработчики утверждают, что опробовали технологию на видеозаписях на самые разные темы: изменение климата, машинное обучение, история Плутона.
Пользователям функция машинного перевода видеороликов доступна в фирменном браузере «Яндекса» для операционных систем Windows и macOS, однако лишь при просмотре ограниченного числа роликов. Специалисты компании создали на Youtube-канале "Yet another browser" подборку из 12 видео (плейлист «Перевод видео»), с помощью которых любой желающий сможет убедиться в работоспособности технологии. В ближайшее время пользователи получат возможность самостоятельно выбирать, какие именно ролики переводить, обещают в «Яндексе».
Над созданием прототипа работало несколько команд. Сейчас в нем применяются технология синтеза речи, разработки «Яндекс.переводчика» и биометрия. Последняя используется для определения пола говорящего – это, как отмечают в «Яндексе», важно и для перевода, и для синтеза речи, в частности, позволяет подобрать подходящий голос для закадровой озвучки.
Технология «Яндекса» поддерживает синхронизацию закадрового голоса с видеорядом, при необходимости корректируя темп речи виртуального переводчика и добавляя в нее паузы. Синхронизация необходима, поскольку исходные и переведенные реплики могут значительно отличаться по длительности – например, в английском языке часто используемые фразы нередко лаконичнее своих русских аналогов.
Для тех, кто внимательно следит за тем, что происходит в мире машинных переводов, все это звучит совершеннейшей фантастикой. Обычные-то текстовые переводчики пока, мягко говоря, далеки от совершенства (хотя нельзя не признать, что с каждым годом они работают все лучше и лучше - благодаря нейросетям), а уж автоматическое воспроизведение текста голосом - это все слушается очень криво.
А тут нам утверждают, что они научились не только распознавать голос в ролике, не только качественно переводить его на другой язык, но и озвучивать на другом языке? Мне в это верится с большим трудом.
Компания предлагает послушать типа как "образцы работы технологии". Сделать это можно только в Яндекс.Браузере, для чего я его поставил, в нем в Yotube открыть плейлист "Перевод видео", и там можно включить перевод.
Для тех, кому не хочется со всем этим возиться - ставить Яндекс.Браузер и так далее, - я заснял небольшой ролик о том, как это все работает.
Так вот. То, что я вижу и слышу в ролике - это даже рядом никакой не "автоматический перевод". Это перевод, явно сделанный профессиональным переводчиком и озвученный профессиональным актером (безусловно, живым человеком, это даже рядом не автоматическая озвучка, как в ридерах с такой функцией).
Ну и в чем юмор, ребята? Ну сделали вы войсовер для нескольких роликов, молодцы. Но на черта это выдавать за "автоматический перевод", когда там за версту понятно, что это никакой не автоматический перевод?
Если вы работаете над этой технологией, но пока вам нечего показать - ну так и напишите, что работаете, но показать пока нечего.
Если вы создали подобную технологию, она работает, и вы готовы ее продемонстрировать - ну так разрешите ее использовать для любых роликов, оговорив, конечно, что голос человека в ролике должен быть только один. Тогда хоть можно будет понять, что она собой представляет.
А так - вообще не пойми что. Показывать обычный войсовер в качестве "демонстрации технологии автоматического перевода" - это как-то очень и очень странно.
я много работаю над пет проектами где используется озвучка от яндекса (новости в машине мне магнитола зачитывает)
у них там 5-6 голосов и вроде 3 интонации для каждого (это про их достижения)
тут звук идет "на одной волне" без остановок на "глотнуть воздуха" - однозначно робот
Ну или просто с Алисой в смартфоне.
Сам перевод и голос вполне себе обычный.
(проверочное слово - "познать")
В Windows наверняка есть функциональность, подобная имеющейся в программе QuickTime для MacOS, позволяющая вести запись экрана с включенным микрофоном. Это выглядело бы как-то опрятнее, чем запись экрана монитора на камеру сотового телефона. Я понимаю, что вы здесь "сам себе режиссер", но ведь вас многие считают "гуру компьютерных наук", да и я в свое время учился по вашим книгам. ?
В результате - к моменту готовности настоящей AI-модели у компании были уже пару десятков платящих клиентов и приличный набор данных...
Ну, разве может если это что-то совсем протокольное, типа: "Сидоров взял на себя и со всей ответственностью несет, Иванов болен, Петров в отпуске"
На совещаниях идеи обсуждаются, решения принимаются, глупости говорятся, в конце концов. Отважные у них клиенты.
Это действительно робот озвучивает.
Позволю себе процитировать комментарий от рук-ля Я.Бро с vc.ru:
Для начала хочу отметить, что мы в Яндекс.Браузере давно работаем над тем, чтобы стереть языковые барьеры для наших пользователей. К примеру, про это мы говорили в похожих выражениях весной, можно почитать в анонсе перевода картинок здесь:
Далее, что касается нашего продукта, он всё-таки сильно отличается от вашего расширения. Уже сейчас в прототипе, который был представлен вчера, мы:
1. Самостоятельно переводим с помощью Яндекс.Переводчика (на ряде языковых пар он работает лучше).
2. Автоматически распознаем пол говорящего в оригинальной аудио-дорожке и подбираем соответствующий голос. Женщин переводит женский голос, мужчин — мужской. Это называется биометрия.
3. Используем собственную озвучку. Наш алгоритм следит за темпом речи говорящего, чтобы переводчик мог делать паузы, замедлять или ускорять речь. Таким образом закадровый голос совпадает с картинкой. Русский язык длиннее английского, в среднем, на 30%, поэтому наш алгоритм умеет применять методы речевой компрессии (совсем как настоящие синхронные переводчики в ООН).
Как вы понимаете, реализация такого сложного проекта и подготовка к его анонсу занимает отнюдь не неделю. К примеру, версия браузера 21.6.0, в которой эта функция работает, выпущена 1 июля, вчера мы лишь включили её всем. А работать над этой функциональностью мы начали несколько месяцев назад.
И ведь это только начало, мы стремимся к тому, чтобы наша технология перевода заработала на абсолютно любом видео как на YouTube, так и на других видеохостингах независимо от того, есть ли там субтитры.
- Чем армян. (с)
Таким образом выработается безусловный рефлекс на попытку открыть Дзен
а) Её невозможно реализовать на данном этапе при данных ресурсах и заявления о её создании - враньё
б) Она нафиг никому не нужна и мы имеем дело с огурцом Малахова
В случае с яндексом не так легко сразу определить, какой из вариантов мы имеем в данный момент, но чаще они конечно идут по варианту а. Врут, иными словами они.
Вы зря не остановились как планировали.
Честно говоря, ждал, когда автор сам мне об этом расскажет.
Не дождался, но результат настолько превзошел ожидания, что прямо - ух!
И должен сообщить вам, как явному специалисту по по швейцарскому туризму: понятия радио и электромагнитные волны вовсе не тождественны.
И таки да, радио - это технология. Технология передачи сообщений посредством электромагнитных волн в относительно небольшом диапазоне частот.
Пожалуй, на этом я и остановлюсь.
Можно сказать и обычными буквами, но лучше все-таки словами.
Я говорил о технологиях не имеющих аналогов в мире.
а) Её невозможно реализовать на данном этапе при данных ресурсах и заявления о её создании - враньё
б) Она нафиг никому не нужна и мы имеем дело с огурцом Малахова
И снова не благодарите - Ваш Кэп.
Примеров не будет, я вас правильно понял? Жаль.
Ну, поздравить вас с этим представлением о мироздании я не могу - могу посочувствовать.
Ваш Кэп.
Можно убрать всех людей из совка, но не из всех людей можно убрать совок...
Можно убрать всех людей из совка, но не из всех людей можно убрать совок...
Есть ещё куча другого контента и его потребителей, прям вот живой пример - моя жена и Origins, который она ещё не может воспринимать в оригинале, но очень хочется, а дайдер куда-то пропал (или не успевает).
Вам что не понятно-то, польза от расширения возможностей получать иформацию?
Прогресс будет, безусловно. Я очертил временное окошко, о котором я говорю. В обозримом будущем вменяемого автодубляжа не будет. И я писал именно об этом.
Поэтому
Какое поразительное неприятие "бесполезного флейма" с вашей стороны. Я восхищён.
Возможно вы не в курсе, но в современном мире дети проводят в Ютубе намного больше времени, чем в кинозалах. И не-дети тоже.
И доступность контента на родном языке сильно варьируется, как несложно догадаться.
И этот контент - не только мультики.
Так что, упомянутая технология вполне подойдет для массы видеороликов, интересных детям и взрослым, где высокохудожественный перевод не нужен.
Наконец, новые технологии имеют удивительное свойство совершенствоваться.
В целом, субтитры вместо звука - это больше компромисс, костыль. Сомневаюсь, что вы предпочитаете смотреть видео на русском с субтитрами (на русском же).
- Ну не знаю. Он дом в Париже строит, а мы тут на таможне сидим...
То, что они ещё не выучили английский не делает их глупыми. Они как раз умнеют в любом случае, ибо учатся.
Оригинал: - It's Snape!
Дубляж: - Это я!
"Вы будете уродовать своих детей этим, не жалко их, нет?" (с)
Еще раз, мы говорим об автоматическом переводе. Вы будете уродовать своих детей этим, не жалко их, нет?
Когда я ищу инструкцию по разборке какой-либо хрени и нахожу только видеовариант на немецком языке, которого я не знаю, субтитры помогают мне понять, в чем там суть, когда самого видеоряда недостаточно.
Но смотреть фильм, озвученный автоматом...Нет. Знаю язык - нафиг надо. Не знаю язык - текста достаточно, в оригинальных интонациях актеров есть свое преимущество. И я вполне допускаю, что ближайшие двадцать-тридцать лет, то есть пока это будет для меня актуально, качество автоматического перевода текста станет приемлемым.
А для удовлетворительного дубляжа я, скорее всего, не доживу (и слава богу, если честно).
Вот тут привели в качестве возможного применения как помощь тем, у кого проблемы со зрением. Это как раз имеет смысл, об этом я не подумал.
А калечить детей - последнее дело. Им надо лучшее.
А вот тем, кто учится по автоматически переведенным лекциям и слушает автоматически переведенные аудиокниги, мои искренние соболезнования.
Попробуйте посмотреть вместе с детьми младшего возраста мультфильм/кинофильм с субтитрами, к примеру.
В начале 90-х распознавание ПЕЧАТНОГО текста казалось фантастикой - а к концу 90-х вошло в наш быт.
В начале 2010-х переводчики на смартфонах были чем-то малореальным. Но уже в 2014-15 годах я в Таиланде переводил этикетки и вывески с тайского.
Во время ЧМ по футболу народ довольно активно общался с иностранцами при помощи голоса в переводчиках на смартфонах
На Ютубе сейчас автоматически создаваемые субтитры на русском с других языков процентов на 70 - адекватны.
Так что просто вопрос времени и наработок.
Да, сейчас - пока криво. Но лет через 10 - думаю будет вполне вменяемо.
Приведённый пример диктовки вполне понятен. Если читать его примерно с той скоростью, с какой он начитывался, легко ставятся нужные паузы. Как будто слушаешь монотонную речь - что, собственно, он и воспроизводит. Вот этого вашего "ах, ах, нихера не понятно, тёмный лес!" и в заводе нету.
Скажите, вы правда такой, как о вас тут говорят?
System Preferences / Keyboard / Dictation
Select "On"
Choose a language
Choose a shortcut
Диктуете так: "Распознавание речи тире работает запятая каждый может это проверить в своём телефоне точка".
Возможно, поможет, если представите себя советским телеграфистом.
Перед словом с большой буквы говорите "с большой буквы" или "с заглавной буквы" - поэкспериментируйте.
В общем, проговаривайте знаки препинания.
Да кому ты доказываешь. Эти люди уже привыкли слушать аутотюн, смотреть стандартное кино, читать тексты длиной не больше 255 символов. Какая на хрен пунктуация )
"Я вообще то уже не вижу я сегодня особых проблем(как простой юзер). Распознавание речи– работает, каждый может это проверить в своём телефоне. Перевод текстов аудио– работает. Синтезаторы речи–сегодня могут говорить люди, потерявший голос или вообще никогда не говорившие, и им возможно дать не просто голос, лишь бы говорил, акцент и манеру речи под конкретного человека создать. Автоматический перевод текстов тоже работает."
Вижу некоторые недочеты, но в общем и целом неплохо. Не могу сообразить пока, что надо сказать, чтобы получился абзацный отступ.
Я в вас верю, у вас получится.
Я воспользовалась технологией, которая есть у каждого в кармане, уверена она не самая идеальная. Я думаю, если бы я приложила даже минимум усилий, я бы нашла что-то работающее лучше. Возможно даже разработанное в Чехии, что бы вам было спокойнее.
Судя по тому что он рассказывал об особенностях процесса - до автоматизации крайне далеко.
Не в последнюю очередь из-за необходимости учитывать контекст и из-за обилия терминологии
Как-то раз, еще в бытность мою работником банка, мы отдали переводчикам на перевод статью о финансовом рынке. Нам был возвращен текст про урожайность. Я думаю, что конечно это была сознательная провокация переводчиков, что бы не загрузжали всякой фигней (они были правы, кстати). Но формально yield - это и урожайность, о доходность.
Хромает тут грамматика. Причём так что даже костыли не помогают понять изначальный смысл, к примеру, вот этого:
Специально для вас - надиктовала в Айфон.
Я вообщето уже не вижу сегодня особых проблем как простой юзер распознавание речи работает каждый может это проверить своем телефоне перевод текста в аудио работает синтезатор речи сегодня могут говорить люди потерявший голос не вообще никогда не говоривший им возможно дать не просто голос лишь бы говорил акцент и манеру речи под конкретного человека создать автоматический перевод текстов тоже работает все части есть понятно что не стопроцентного совершенства не на одном из этапов а это приводит к тому что конечный результат не идеален ещё монотонность надо преодолеть ну нейросети тут должны сильно помочь я не думаю что надо будет ещё 10 лет ждать хотя на сегодня как я читала где-то конференции по машинного перевода перевод живые переводчики
Ну что можно сказать? Пунктуация - хромает на обе ноги, бесспорно (моя тоже была неидеальна), а что касается текста - ошибок не меньше, чем у меня при наборе (а я правила, то что писала!). Большинство ошибок отношу к моим "фефектам фикции" - проглоченные предлоги, ни-не-нет. Это ненамного хуже большинства писанины, которую можно встретить в интернете и это бытовая технология, доступная каждой домохозяйке.
Так что вполне.
Судя по тому что он рассказывал об особенностях процесса - до автоматизации крайне далеко.
Не в последнюю очередь из-за необходимости учитывать контекст и из-за обилия терминологии
Я - всегда пишу, у меня действительно не получается надиктовывать. Но мне не так много надо по-русски писать, а англиский я сама за собой много правлю. Но я допускаю, что если бы я приложила некоторые усилия, я бы освоила голосовой ввод. В этом вопросе я ретроград.
Распознавание речи - работает, каждый можрт это проверьть в своем телефоне.
Перевод текста в аудио - работает.
Синтезаторы речи - сегодня могут говорить люди, потерявшие голос или вообще никогда не говорившие, и им возможно дать не просто голос, лишь бы говорил, а акцент и манеру речь под конкретного человека создать.
Автоматический перевод текстов тоже работает.
Все части есть , понятно, что нет 100% совершенства ни на одном из этапов, а это приводит к тому что конечный результат не идеален. Еще монотонность надо преодолеть, но нейросети тут должны сильно помочь. Я не думаю, что надо будет еще 10 лет ждать.
Хотя на сегодня, как я читала где-то, конференции по машинному переводу переводят живые переводчики 😉
Другое дело что сейчас мы видим первые робкие неуверенные шаги. Но тем не менее начало положено.
Там тебе не только озвучат, но и "визуально" проговорят.
В целом, думаю, технологии перевода и озвучки совсем скоро уже выйдут на тот уровень, при котором сложно будет отличить от реальности )))
Нейросети учатся, Скайнет не за горами.
То что мы видим на этой демонстрации (и по ссылкам) - это неоспроимый прогресс, но до варианта "сложно отличить от человеческой речи" - далеко, на мой дилетантский взгляд.
Вполне возможно, что и не достижимо - в том числе, потому что нафик не надо.
Ну, скажем балована ваша Гала. Лет 10 назад условный гугл транслэйт работал как не пойми кто. Теперь фактически нормальный перевод.
Для этого ИИ нужно, как минимум, "понимать" текст.
Так что, "скоро" - это вряд ли.
Претензия относится лишь к уровню музыки - забивает текст - причем сильно забивает.
А тему вы поднимаете в ролике весьма актуальную. Хоть я и не в Питере живу
У меня жена особо чувствительна к раздражающими акцентам и говору разных Ютюб-блогеров, а тут - сразу одобрила голос. Хоть и остается некоторая механистичность и некоторые промахи в интонациях, которые пока не настроить у робота.
Музыка неудачная. Возможно не сама музыка - а слишком высокий ее уровень. Долбит прямо в уши. (слушаю в наушниках)
Свой ролик - без проблем, ведь это для демонстрации.
Выберите голос филип и вставьте текст в поле слева.
(Понятно, что демороликах озвучку «подкрутили» тонкими настройками)
Это не бага, это фича.
cloud.yandex.com
Хотя при этом чистых англичан Гугл очень неплохо распознаёт, какая бы каша у них во рту на была.