Langue de la machine: comment Siri prend votre voix?
Makradar De La Technologie / / December 19, 2019
Google, Apple, Microsoft, et même Amazon développent activement leurs services vocaux. Fraîchement sorti du four sur iOS 7 est le même Siri, que de nouvelles fonctions et... la voix. Vous demandez-vous comment est-ce processus? Comme les ordinateurs sont enseignés la parole? cette art réel.
Pour chacune des voix Siri - votre acteur. Une fois qu'il a terminé son rôle dans l'articulation, le travail ne fait que commencer... La voix de l'homme poursuit son voyage. L'histoire de ce voyage, à la fois de l'homme et le robot - l'un des processus les plus complexes technologiques, qui ne peut être réalisée il y a dix ans.
Faisons connaissance avec le directeur de la conception et le développement de la voix Nuance, il est l'une des plus grandes sociétés indépendantes dans le monde traitant de la reconnaissance de la parole et le texte à la parole. Brant Ward (J. Brant Ward) utilisé pour être un compositeur, composez le parti pour quatuors à cordes de synthétiseurs, et maintenant il compose en utilisant des voix synthétiques. Il travaille dans l'industrie de la parole dans la Silicon Valley depuis plus d'une décennie.
Text to Speech - une industrie très concurrentielle, et ses employés est très secret. Bien que le monde et estime que Nuance crée la voix de Siri pour, Ward et son collègue David Vasquez (David Vazquez) éviter une réponse directe., Ils sont néanmoins convenus d'expliquer, au moins en termes généraux, comment le processus de création d'une voix de machine incroyable.
Inutile de dire, pas besoin d'articuler et d'écrire chaque mot du dictionnaire. Mais en ce qui concerne l'application, qui devrait être lu des nouvelles dans votre bulletin d'information, ou de trouver quelque chose pour vous sur Internet, il est tout simplement obligé de parler chaque mot dans le dictionnaire.
La plupart des propositions sont sélectionnées sur un « richesse » de Phonétique - qui est, ils contiennent différentes combinaisons de phonèmes. « Le fait est, plus les données que nous avons, plus réaliste, le résultat sera, » - dit Ward.
Une fois le texte enregistré acteur vocal en direct (un processus fastidieux qui peut prendre plusieurs mois), le travail très dur commence. Les mots et les phrases sont analysées, divisées par catégories et enregistrées dans une base de données importante. Dans ce travail complexe a impliqué une équipe de linguistes spécialisés, ainsi que d'utiliser leur propre logiciel linguistique.
Quand tout cela est fait, l'unité de Nuance pour traduire le texte à la parole crée des mots et des phrases de bits que l'acteur peut Je ne ai jamais fait prononçais, mais il semble très similaire au discours de l'acteur, parce que techniquement il est la voix acteur.
parler de processus est inconscient. Nous le faisons sans penser à la façon dont ce processus se produit: la situation dans laquelle est notre langue, les relations sont construites entre phonèmes, etc. - facilement et efficacement exprimer des idées complexes et émotions. Mais pour que l'ordinateur a pris le son des voix humaines, tous ces facteurs doivent être pris en compte. En tant que professeur de linguistique, est la tâche de « Titanic ».
Vous ne devriez pas penser: « Je parle à un ordinateur. » Vous n'avez pas besoin généralement d'y penser.
« Mes enfants interagissent avec de Siri, comme si elle était une créature vivante... Ils ne se sentent pas la différence », - dit Ward.
Jusqu'à présent, et à l'amitié entre les humains et les robots - tels que les humains. Beaucoup de gens aimeraient si Siri peut reconnaître l'état émotionnel du locuteur, et de réagir en quelque sorte à elle (par exemple, inclure un mode de voix apaisante). Imaginez - pour parler au robot, qui est moralement vous tape sur la tête. Peut-être, Nuance réfléchit déjà à ce sujet ...