Điều gì sẽ xảy ra nếu mọi bản tin truyền hình Việt Nam từ năm 1945 đều có thể đào tạo thế hệ AI tiếp theo?
Sáu thập kỷ phát thanh VTV. Kho lưu trữ phát thanh VOV trải dài về tận buổi đầu thành lập. Bộ sưu tập tài liệu tại Viện Phim Việt Nam. Bản thảo Hán-Nôm mà không một nhà cung cấp quốc tế nào có thể đọc được.
Nội dung tồn tại. Hình thức số thì không.
Chúng tôi biến cái này thành cái kia — chuyển âm thanh, hình ảnh, tài liệu, bản tin, sách, và kho lưu trữ tiếng Việt thành các bộ dữ liệu được xác thực, có cấu trúc, sẵn sàng cho mô hình.
Được chuyên gia kiểm tra. Có nguồn gốc rõ ràng. Giao theo định dạng mà đội ngũ của bạn đang sử dụng.
Các mô hình ngôn ngữ lớn tiếng Việt cần hơn 500 tỷ token dữ liệu đào tạo. Kho dữ liệu công khai chỉ đạt 100–200 tỷ. Khoảng cách này là nơi AI tiếng Việt thành công hoặc thất bại.
Chúng tôi tồn tại để thu hẹp khoảng cách đó.
Hãy đồng hành cùng chúng tôi.