Thông báo
  • 13/03/2024 - Thông điệp Ngày Đo lường Thế giới: Đo lường hôm nay vì ngày mai bền vững
  • 30/05/2020 - Download mẫu đơn đăng ký thành viên
  • 30/05/2020 - Hướng dẫn sử dụng trên sàn bavutex.vn
  • Xem tất cả
Hướng dẫn
Hỗ trợ
    • Hỗ trợ khách hàng (8h - 21h hàng ngày)
    • Hỗ trợ chung: (84-254)3737 898
    • Fax: (84-254)3737 898
    • Email : bavutex@gmail.com
    • Bavutex.vn không bán hàng trực tiếp. Quý khách mua hàng vui lòng click vào sản phẩm, xem thông tin và liên hệ với nhà cung
Đăng ký
Đăng nhập
Giỏ hàng (0)
Bavutex
    • Trang chủ
    • Chào bán
    • Tìm mua
    • Nhà cung cấp
    • Tin công nghệ
    • Sự kiện
    • An ninh - Bảo vệ
      • Camera
      • Cháy nổ
      • Đảm bảo an toàn
      • Phần mềm an toàn- an ninh
      • Dịch vụ an ninh- bảo vệ
    • Hoạt động dịch vụ Phòng chống thiên tai
    • Dịch vụ An toàn bức xạ hạt nhân
    • Công nghệ Sinh học- Thực phẩm
    • Cao su- Nhựa- Hóa chất- Gốm
      • Gốm- Cao su
      • Nhựa
      • Hóa chất ngành nông nghiệp
      • Hóa dược
      • Hóa chất công nghiệp
      • Phụ gia thực phẩm
      • Hóa chất trong phòng thí nghiệm
      • Dịch vụ trong ngành
    • Sản phẩm khởi nghiệp sáng tạo
    • Chế biến giấy, gỗ- In ấn và đóng gói
      • Máy chế biến giấy, gỗ
      • Vật liệu đóng gói và in ấn
      • Máy đóng gói và in ấn
      • Linh kiện máy đóng gói và in ấn
      • Dịch vụ đóng gói và in ấn
    • Cơ khí - Chế tạo máy
      • Máy cơ khí
      • Vòng bi, van, phụ kiện
      • Hệ thống truyền tải
      • Thủy lực, khí nén
      • Linh kiện chính xác
      • Dịch vụ trong ngành
      • Sản phẩm cơ khí
      • Phần mềm ngành cơ khí
    • Công nghệ thông tin
      • Phần mềm
      • Dịch vụ CNTT
      • Máy tính xách tay - Laptop
      • Máy tính để bàn - Desktop PC
      • Máy chủ - Server
      • Linh kiện và phụ kiện Máy tính
      • Thiết bị mạng
    • Tất cả lĩnh vực
  • Trang chủ
  • Chào bán
  • Tìm mua
  • Nhà cung cấp
  • Tin công nghệ
  • Sự kiện
  • Trang chủ/
  • Tin công nghệ/
  • Tin KHCN trong nước/
  • AceSound: Giọng máy tiếng Việt
Danh mục
  1. Tin KHCN Bà Rịa - Vũng Tàu
  2. Sự kiện- Triển lãm
  3. Tin KHCN trong nước
  4. Tin KHCN nước ngoài
  5. Thông báo
  6. Tin tức Tiếng Anh
Quảng cáo
Petrol Việt Nam
Quảng cáo sản phẩm 2
AceSound: Giọng máy tiếng Việt

AceSound: Giọng máy tiếng Việt

  • 19/11/2021
  • 179 Lượt xem

Trải qua bốn phiên bản nâng cấp, từ việc chỉ có thể chuyển hóa đơn thuần văn bản thành giọng nói, các kỹ sư của FPT.AI đã phát triển thành công công nghệ giọng máy AceSound như người thật với nhịp điệu, âm sắc mượt mà, tự nhiên.

Giọng máy và giọng người
 
Ông Trần Thế Trung – Viện trưởng Viện Nghiên cứu công nghệ FPT, người được xem là kiến trúc sư trưởng của dự án phát triển phiên bản thứ năm giọng máy của FPT.AI kể một ví dụ để chứng minh cho chất lượng giọng máy. “Khi chúng tôi cung cấp giọng đọc này cho các tổng đài, dù đã bắt đầu bằng lời giới thiệu “đây là trợ lý ảo”, nhưng chỉ sau vài ba câu trao đổi, khách hàng có người hỏi lại “Em là người, không phải máy hả?” - ông Trần Thế Trung vừa cười vừa kể lại câu chuyện một cách mãn nguyện. Với người dành nhiều năm để nghiên cứu, cải tiến và tìm kiếm phiên bản giọng nói tự nhiên thì đây là ví dụ điển hình nhất chứng minh cho thành công của ông và cộng sự.
 
Để làm được điều này, đội ngũ tham gia dự án không chỉ có những kỹ sư máy tính trong các lĩnh vực deep learning, trí tuệ nhân tạo, xử lý ngôn ngữ tự nhiên mà còn có cả các chuyên gia về ngôn ngữ tiếng Việt. Ông Trung giải thích: “Công nghệ xử lý giọng nói đã có lịch sử phát triển hàng chục năm trên thế giới, nhưng đó chỉ là kiến thức chung và được làm tốt ở các ngôn ngữ phổ biến như tiếng Anh. Tiếng Việt là bài toán khác. Chúng tôi có sự thừa kế về kỹ thuật, nhưng chỉ là một nửa chặng đường”.
 
Họ đã đi qua một hành trình dài từ năm 2013 tới nay, trải qua năm phiên bản khác nhau. “Tính trung bình cứ khoảng 1-2 năm, chúng tôi lại ra mắt một phiên bản nâng cấp” – ông Trung nói. Mỗi phiên bản sau lại cải tiến hơn phiên bản trước khiến người nghe cảm nhận được sự khác biệt rõ rệt. Để làm được điều đó, đội ngũ phát triển đã thực hiện hàng nghìn những thí nghiệm. Nếu truy cập vào website của FPT.AI để nghe các giọng nói điển hình mà đơn vị này đang cung cấp, chắc hẳn nhiều người sẽ nhận ra nhiều giọng nói quen thuộc thường xuất hiện trong các clip nhận xét phim, postcard….Một cách chi tiết hơn đó là giọng nữ miền Bắc Ban Mai, giọng nữ miền Bắc Thu Minh, giọng nữ miền Nam Linh San, giọng nam miền Nam Minh Quang,… Mỗi giọng đúng như định danh lại có một sắc thái riêng.
Để xây dựng được những giọng nói như thế, nhóm phát triển ngoài việc dựa trên lý thuyết nền tảng với các thuật toán chung còn nghiên cứu và tìm kiếm chất giọng chuẩn của phát thanh viên và nghiên cứu về nhịp điệu, cách nhấn nhá, ngắt nghỉ, thậm chí là cách vuốt âm cuối trong câu, lên cao, xuống thấp từng từ rồi xây dựng các bộ thông số riêng cho từng phong cách. “Thực tế những cái đó chúng ta đều cảm thụ được hết nhưng chưa có ai tri thức hóa thành văn bản, đưa ra thông số cụ thể và chúng tôi làm điều đó. Khác biệt lớn nhất giữa chất giọng tự nhiên và không tự nhiên nằm ở nhịp điệu, cảm xúc trong cách nói, tốc độ đọc không đều, có sự ngẫu nhiên, và thường ngắt nghỉ theo ngữ nghĩa văn bản, chất lượng âm thanh trong, không đục. Giọng máy công nghệ AceSound có thể nói là tiệm cận với chất lượng của phát thanh viên trong đài truyền hình, đài phát thanh” – ông Trần Thế Trung giải thích.
 
Trong quá trình làm việc, đội ngũ kỹ sư phát triển đã dành hàng nghìn giờ để ngồi nghe, thẩm thấu từng chất giọng và cảm thụ được sự khác biệt trong giọng của từng phát thanh viên. Đơn cử như giọng nữ miền Bắc cũng có nhiều phong cách khác nhau, người cương quyết, mạnh dạn thì cách nói đều đều, rắn chắc, âm tiết ngắn, có âm sắc đanh. Với người điệu thì giọng lại uyển chuyển, mềm mỏng, hơi mướt, có chút điệu, âm sắc sẽ nghiêng về trẻ con, tốc độ đọc chậm, thường vuốt dài ở âm tiết cuối cùng trong câu… Tất cả những sự tỉ mỉ đó cho thấy, để tìm ra được 10 bộ thông chuẩn cung cấp cho khách hàng, đội ngũ phát triển của FPT.AI đã làm việc chi tiết tới mức nào. Không chỉ nằm ở công nghệ, điều này còn nằm ở cả sự tinh tế, kinh nghiệm và sự linh hoạt của nhóm phát triển.
 
Bên cạnh hàng nghìn những thí nghiệm được thực hiện để điều chỉnh từng thông số về cao độ, sắc độ, nhịp điệu hay tốc độ, giọng nói…, nhóm thậm chí cũng phải “cắn răng ’đập đi’ những thuật toán không phù hợp để thiết kế cái mới”. Ông Trung giải thích, “nếu chỉ dùng kiến thức chung về tổng hợp giọng nói trên thế giới sẽ chỉ đạt tới một ngưỡng nhất định. Để áp dụng cho tiếng Việt, chúng tôi phải đưa vào kiến thức ngôn ngữ tiếng Việt, thay đổi về cao độ, tốc độ, cách phát âm, khả năng ngắt nghỉ… thậm chí thiết kế lại quy trình, chi tiết từng bước cho phù hợp với hạ tầng, dữ liệu để giọng máy AceSound trở nên mượt mà, sống động hơn. Bởi dữ liệu trên thế đang được làm cho tiếng Anh trong khi tiếng Việt lại có cách ngắt nghỉ nhấn nhá khác hoàn toàn”.
 
Những ứng dụng đa dạng trong cuộc sống
 
Kể từ khi được ra mắt, AceSound đã được cung cấp cho nhiều khách hàng, từ các tổng đài chăm sóc khách hàng, chatbot, trợ lý ảo, cho đến các đơn vị sản xuất nội dung số như video, podcast, sách nói, ebook. “Khách hàng đang quen sử dụng phiên bản thứ tư, nhưng đến khi nghe phiên bản thứ năm, họ đã nhận ngay ra sự mượt mà trong cách đọc mới và lập tức ưa thích nó” – ông Trung nói.
 
Để có được sự thay đổi này, ông Trung nói rằng, bên cạnh những bộ thông số điều chỉnh giọng được ví như bí quyết điều chế của Coca Cola thì chất lượng dữ liệu cũng đóng vai trò quyết định. Quá trình nghiên cứu hàng chục năm giúp họ nhận ra, cần xây dựng tiêu chuẩn cho dữ liệu. Ông Trung giải thích: “Nếu như trước kia dữ liệu có thể lấy từ một bạn bất kỳ, tranh thủ ngồi thu âm cho máy học thì sau này khi phát triển Acesound, tôi thấy rằng dữ liệu được chuẩn hóa cho đầu ra khác hẳn”.
 
Việc tạo ra sức ép về thời gian khiến giọng đọc không ổn định bởi khi khỏe mạnh người ta đọc kiểu khác, khi mệt mỏi lại đọc kiểu khác. Vì thế một trong những khía cạnh cần đảm bảo với người thu âm là sức khỏe ổn định. Mỗi người mỗi ngày không đọc quá nhiều, chỉ đọc 1-2 tiếng.
 
Với những người làm AceSound, xây dựng dữ liệu giờ là cuộc đua marathon, có thể phải mất vài tháng mới đủ dữ liệu đảm bảo chất lượng. Thậm chí có khi vài tháng sau khi hoàn thành họ vẫn yêu cầu người thu âm đọc bổ sung thêm từng đoạn dữ liệu về ngữ âm, nhịp điệu. Bởi thế, khi cung cấp phiên bản thứ 5 cho khách hàng, AceSound đã khiến họ có một trải nghiệm hoàn toàn khác biệt. Một trong những ứng dụng nổi bật của AceSound là tích hợp vào trợ lý ảo tổng đài chăm sóc khách hàng tự động. Bằng công nghệ “hệ suy luận”, trợ lý ảo có thể trao đổi một cách tự nhiên với khách hàng bằng cách đặt câu hỏi để khu trú và tìm ra câu trả lời phù hợp. Đơn cử trong như trong làn sóng dịch thứ tư vừa qua, trợ lý ảo tổng đài chăm sóc khách hàng tự động đã được đưa vào tổng đài 1022, thực hiện hàng trăm ngàn cuộc điện thoại mỗi ngày tới các F0, F1, F2, ở TP.HCM để hỏi thăm tình hình sức khỏe, hướng dẫn cách ly đưa ra hướng dẫn tùy theo câu trả lời của khách hàng và cập nhật theo thời gian thực thông tin người bệnh cho cơ quan chức năng.
 
Bên cạnh những doanh nghiệp lớn, AceSound cũng được nhiều khách hàng cá nhân sử dụng với mục đích đa dạng, sáng tạo mà nói như ông Trần Thế Trung là “không bao giờ nghĩ đến”. Trường hợp đặc biệt nhất là AceSound được ứng dụng để đọc các bài cúng. “Tôi cũng không ngờ những người làm tín ngưỡng lại cập nhật công nghệ đến vậy. Nhưng nó cho thấy sức sáng tạo của người dùng. Đây là điểm thú vị khi một sản phẩm được mở ra cho người dùng trải nghiệm” – ông Trung nói và tin rằng, việc FPT.AI cởi mở trong việc chia sẻ các công nghệ sẽ góp phần xây dựng hệ sinh thái sáng tạo cho cả cộng đồng.
 
Người lĩnh xướng công nghệ AceSound cho biết, trong tương lai họ vẫn còn nhiều việc phải làm. Họ đã nhận được nhiều các yêu cầu khó ví như hệ thống không chỉ đọc nhuần nhuyễn hay như người mà còn có thể hát được hoặc có thể nói được nhiều ngôn ngữ hơn hoặc một giọng đọc có thể vừa đọc thời sự vừa đọc … truyện chưởng. “Giờ đây người dùng có thể thoải mái sáng tạo và thử nghiệm với các bộ thông số chúng tôi cung cấp và tự do điều chỉnh tốc độ nhịp điệu. Họ sẽ ngày càng yêu cầu cao hơn, nhất là đi sâu để giải quyết bài toán cho từng lĩnh vực như ngân hàng, bảo hiểm và sản xuất nội dung sáng tạo trực tuyến… Chúng tôi biết mình sẽ còn nhiều việc phải làm trong thời gian tới để đáp ứng trí tưởng tượng vô biên của khách hàng” – ông Trung quả quyết.
 
Theo khoahocphattrien

Tin tức liên quan

Tác phẩm do trí tuệ nhân tạo sáng tác ra có được bảo hộ quyền tác giả? 14/11/2018
Mạng 5G là hạ tầng quan trọng nhất của CMCN 4.0 14/11/2018
Công bố kết quả bình chọn 10 Sự kiện KH&CN nổi bật năm 2018 02/01/2019
Việt Nam có trợ lí ảo AI đầu tiên 03/01/2019
Thiết bị phân tích vết thủy ngân 04/01/2019

Đăng ký nhận bản tin online


SÀN GIAO DỊCH CÔNG NGHỆ TRỰC TUYẾN TỈNH BÀ RỊA - VŨNG TÀU.

Cơ quan quản lý: SỞ KHOA HỌC VÀ CÔNG NGHỆ TỈNH BÀ RỊA - VŨNG TÀU.

Quyết định số 39/QĐ-SKHCN, ngày 09/04/2015 của sở Khoa học và Công nghệ tỉnh Bà Rịa - Vũng Tàu

Bản quyền thuộc: SỞ KHOA HỌC VÀ CÔNG NGHỆ TỈNH BÀ RỊA - VŨNG TÀU.

Đơn vị thiết kế và vận hành: Trung tâm Công nghệ và Thông tin tỉnh Bà Rịa - Vũng Tàu.

Địa chỉ: Số 202 Bạch Đằng, Phường Phước Trung, Thành phố Bà Rịa, tỉnh Bà Rịa – Vũng Tàu.

Điện thoại: (84-254)3510 573 Fax: (84-254)3510 573 || Email: bavutex@gmail.com

logo
Bavutex - Nhà cung cấp thiết bị công nghệ, mua bán máy công nghiệp
Copyright @ 2016 - 2017 Bavutex.vn - Online Technology - Equipment Transfer and Exchange.
  • Chính sách bảo vệ thông tin
  • Quy chế quản lý hoạt động
  • Hướng dẫn
  • Giới thiệu
Đăng nhập
logo

Bạn chưa có tài khoản? Đăng ký ngay

Quên mật khẩu
Đăng ký
logo
Quên mật khẩu
logo
Điều khoản sử dụng
Gửi yêu cầu báo giá tới nhà cung cấp
Hãy nhập chi tiết thông tin về sản phẩm như tên, kích thước, vật liệu, màu sắc... các yêu cầu đặc điểm kỹ thuật khác để nhận báo giá chính xác.
Gửi chào hàng