آمازون روی بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار کار می‌کند

محققان آمازون مدعی هستند در حال توسعه بزرگترین مدل هوش مصنوعی برای تبدیل متن به گفتار بوده که برای آموزش آن از ۱۰۰ هزار ساعت سخنرانی در حوزه عمومی استفاده می‌شود.

محققان آمازون مدعی هستند در حال توسعه یکی از بزرگترین مدل‌های هوش مصنوعی برای تبدیل متن به گفتار و آموزش آن هستند. این مدل با نام BASE TTS برای آموزش از ۱۰۰ هزار ساعت اطلاعات صوتی استفاده کرده و در نتیجه با قابلیت‌های دریافت کرده خود می‌تواند انقلابی در حوزه مدل‌های تبدیل متن به صدا ایجاد کند.

مدل جدید آمازون در واقع دارای نام Big Adaptive Streamable TTS به صورت مخفف BASE TTS با قابلیت‌های جدید خواهد بود که در آموزش آن از ۱۰۰ هزار ساعت سخنرانی با موضوع عمومی استفاده شده است. ۹۰ درصد از آموزش‌های ارائه شده برای این مدل جدید به انگلیسی بوده بقیه آن نیز شامل زبان‌های هلندی اسپانیایی و آلمانی است.

با توجه به اینکه مدل جدید از ۹۸۰ میلیون پارامتر پشتیبانی می‌کند. می توان آن را یکی از بزرگترین مدل‌ها در نوع خود محسوب کرد. همچنین ویژگی‌های جدیدی به آن اضافه شده که تنها آن را یک تقلید کننده صدا ندانسته و در صورت مواجهه با جملات پیچیده و یا ارائه گفتار با صدای طبیعی می تواند عملکرد درخشانی را از خود نشان دهد. پیش از آن آمازون در مدل‌های ۴۰۰ و ۱۵۰ پارامتری خود نیز از آموزش‌های ۱۰ هزار و ۱۰۰۰ ساعتی صدا استفاده کرده بود.

در وب سایت ساخته شده برای این مدل نمونه‌های مختلفی از صدا وجود دارد که این هوش مصنوعی با استفاده از برخی متون دشوار ایجاد کرده است. البته باید توجه داشت که مدل مورد نظر هنوز در مرحله فرایند تجربی قرار داشته و امکان استفاده از آن برای اهداف تجاری وجود ندارد. آمازون در آینده توضیحات بیشتری در مورد ویژگی‌های جدید و نحوه آموزش این مدل زبانی ارائه خواهد کرد.