ابتكارات

سيري بصوت مُختلف في iOS 11.. تقنيات جديدة خلف هذا التغيير

بعد تثبيت الإصدار الأخير من نظام “آي أو إس” iOS 11 الصادر قبل فترة قليلة، يُمكن ملاحظة التغيّر الحاصل في صوت سيري Siri، المساعد الرقمي في أجهزة آبل الذكية، وهو تغيير على صعيد الصوت وفي آلية نطق الكلمات أيضًا.

وفي حالة عدم رصد التغيير أو عدم استخدام أجهزة آبل، فيُمكن زيارة الرابط التالي وتجربة أكثر من مثال لرصد الاختلاف بين الإصدار التاسع، والعاشر، والحادي عشر من نظام “آي أو إس”.

شرعت آبل في العمل على سيري منذ 2005 تقريبًا، وبدأت وقتها بتسجيل الأصوات من خلال الاعتماد على بعض الأشخاص المُختصّين في هذا المجال وتقديم بعض النصوص لهم، ومهمّتهم الأساسية هي قراءة تلك النصوص فقط، مع ضمان مخارج الحروف والنطق الواضح، وهي مهمّة مُهندسي الصوت المسؤولين عن تلك العملية. وبالمناسبة، ذكرت صاحبة صوت سيري الأصلي أنها لم تكن على دراية بهذا المشروع، فهي ذهبت لتسجيل صوتها في آبل دون أن تدري عن المشروع، لتتفاجئ فيما بعد عندما أخبرها أصدقاؤها أن صوتها مُستخدم في سيري على آيفون 4 إس.

في ذلك الوقت، كانت الطريقة تعتمد على تقسيم النصوص المُسجّلة لأقسام لتمثيل أجزاء صوتية مُختلفة؛ فبعد تسجيل جملة “أنا بخير” ستقوم الآلة بتجزئتها لتُصبح “أن”، و”ا ب”، و”خير”، وهكذا تتكرّر العملية لضمان تغطية جميع المحارف والمخارج الصوتية في اللغة، وهذا بالتعاون مع خُبراء في اللغة.

تلك الطريقة، التي يعود تاريخ العمل بها لعقدين أو أكثر من الزمن، أصبحت قديمة جدًا في ظل وجود طُرق جديدة، أو تحسينات إن صحّ التعبير. كما أنها لا تُعبّر بشكل صحيح عن المشاعر، أي أن طبقة الصوت لا تتغيّر بناءً على نوع الحديث، لتبدو المساعدات الرقمية جامدة بلا روح.

ومن هنا، بدأت آبل بتغيير التقنيات مع مرور الأعوام حتى وصلت لأسلوب اختيار الوحدة المُختلط Hybrid Unit Selection، وهو أسلوب يجمع أفضل ميّزات أسلوب Unit Selection المستخدم في السابق، وParametric synthesis، وهو أسلوب يوفّر حديث أوضح، لكن جودته بشكل عام أقل من المتوسّطة.

واستمرارًا مع الأسلوب الجديد قامت آبل بتسجيل ما يزيد عن 20 ساعة من صوت الإنسان وهو يقرأ الكُتب، أو النُكات، أو الإجابات على الأسئلة، ليتم تمريرها فيما بعد لخوارزميات الذكاء الصُنعي وتعلّم الآلة التي وقبل كل شيء تُحاول فهم المعنى المقصود في كل جملة ونوع المشاعر قبل أن يتم تقسيمها من جديد لأجزاء مُختلفة. بعدها، يتم تمرير تلك الأجزاء من جديد للتعلّم الذاتي من أجل تحديد بعض الخصائص مثل سرعة النطق، وقوّة الصوت وحدّته، ونوع المشاعر التي يوصلها هذا الجزء في الجُمل السابقة.

أما النتيجة النهائية فهي واضحة، صوت يخرج من الآلة، ومن إنتاج الآلة تقريبًا، إلا أنه أقرب للبشر بفضل تلك التفاصيل الصغيرة والتغييرات، فالتركيز على مخارج الحروف والمشاعر التي تحملها ساهم في تقديم تجربة جديدة يُمكن رصدها في “آي أو إس” وفي مساعد غوغل الرقمي الذي يعتمد على أسلوب مُشابه يُعرف باسم WaveNet.

إغلاق