Thư viện số: Lưu trữ 1.000 tỷ trang web

Cách Cầu Cổng Vàng (Golden Gate) trứ danh của San Francisco không xa, một kiến trúc nổi bật hiện lên với màu trắng trang nhã và hàng cột mang phong cách Gothic. Tòa nhà này, xưa kia là một nhà thờ Cơ đốc giáo, nay đã trở thành “ngôi nhà” của Internet Archive, nơi lưu giữ những dấu ấn lịch sử vô giá của Internet. Bên trong, tiếng thì thầm của máy chủ thay thế cho những bài giảng kinh điển.

Internet Archive, một thư viện số phi lợi nhuận, được thành lập vào năm 1996 bởi kỹ sư máy tính Brewster Kahle. Ông đã chọn mua nhà thờ này vì sự tương đồng giữa kiến trúc của nó với logo của tổ chức. Quan trọng hơn, tòa nhà mang ý nghĩa về sự trường tồn và gợi nhớ đến Thư viện Alexandria huyền thoại của Ai Cập cổ đại.

Đây là nơi làm việc của khoảng 200 nhân viên, bao gồm các kỹ sư, thủ thư và chuyên gia lưu trữ. Họ tỉ mỉ số hóa từng trang sách bằng các thiết bị chuyên dụng, và quá trình này được phát trực tiếp trên YouTube. Ngoài sách, Internet Archive còn lưu trữ âm nhạc, chương trình truyền hình và cả trò chơi điện tử. Một điểm đặc biệt là hơn 100 bức tượng kích thước thật của những nhân viên đã cống hiến ít nhất ba năm cho tổ chức, gợi nhớ đến đội quân đất nung nổi tiếng của Trung Quốc.

Những ngày đầu thành lập, dung lượng lưu trữ web của Internet Archive chỉ khoảng 2 TB mỗi năm, tương đương với dung lượng của một chiếc iPhone hiện đại. Ngày nay, con số đó đã tăng lên đáng kể, với gần 150 TB dữ liệu được lưu trữ mỗi ngày, tương đương hàng trăm triệu trang web. Sau ba thập kỷ hoạt động, Internet Archive đã hợp tác với hơn 1.200 thư viện và viện nghiên cứu để xây dựng một thư viện số khổng lồ, với sứ mệnh bảo vệ nội dung trực tuyến khỏi nguy cơ biến mất.

Để đảm bảo an toàn cho dữ liệu, Internet Archive đặt bản sao lưu trữ của mình tại nhiều địa điểm trên khắp thế giới, phòng ngừa các rủi ro như hỏa hoạn, thiên tai hoặc các vấn đề chính trị có thể làm hỏng máy chủ. Phần lớn máy chủ được đặt trong một nhà kho lớn bên ngoài San Francisco, nhưng một phần quan trọng được đặt ngay trong thánh đường của nhà thờ, mang ý nghĩa biểu tượng sâu sắc.

Trụ sở của Internet Archive là một nhà thờ cổ ở San Francisco. Ảnh: NPR
Internet Archive: Trụ sở tại nhà thờ cổ San Francisco (Ảnh NPR). Ảnh: Internet

Tháng trước, Internet Archive đã đạt một cột mốc quan trọng khi lưu trữ được 1.000 tỷ trang web. Bộ sưu tập khổng lồ này, tương đương khoảng 100.000 TB dữ liệu hoặc 21,3 triệu đĩa DVD, được xây dựng nhờ Wayback Machine, một công cụ cho phép người dùng khám phá các phiên bản lưu trữ của các trang web.

Theo Mark Graham, Giám đốc phụ trách Wayback Machine, công cụ này không chỉ chụp ảnh màn hình trang web mà còn lưu lại cấu trúc kỹ thuật, bao gồm mã HTML, CSS, JavaScript và nhiều yếu tố khác, để “phát lại trang web như ban đầu” ngay cả khi máy chủ gốc không còn hoạt động. Bên cạnh các máy chủ “chết”, nhiều yếu tố khác cũng có thể khiến các trang web biến mất, như các bản nâng cấp phần mềm gây lỗi liên kết hoặc do công ty phá sản.

Mark Graham chỉ vào bức tượng giống ông tại trụ sở Internet Archive. Ảnh: NPR
Mark Graham và bức tượng tại Internet Archive (Ảnh NPR). Ảnh: Internet

Không chỉ các trang web cũ từ những năm 1990 hay đầu những năm 2000 gặp rủi ro. Nghiên cứu của Trung tâm Nghiên cứu Pew cho thấy 38% đường liên kết từ năm 2013 và 8% liên kết từ năm 2023 không còn truy cập được vào năm 2024.

Sự “suy thoái kỹ thuật số” này diễn ra trên nhiều không gian trực tuyến. Khi xem xét các liên kết trên trang web chính phủ, trang tin tức và phần “Tài liệu tham khảo” của Wikipedia vào mùa xuân năm 2023, Pew phát hiện ra rằng 23% trang web tin tức và 21% trang web chính phủ chứa ít nhất một liên kết bị hỏng. Đáng chú ý, 54% các trang Wikipedia cũng có ít nhất một liên kết trong phần “Tài liệu tham khảo” dẫn đến một trang không còn tồn tại.

Với mạng xã hội, Pew thu thập các bài đăng trên X (trước đây là Twitter) vào đầu năm 2023 và theo dõi chúng trong ba tháng. Kết quả cho thấy gần 1/5 số bài viết đã không còn hiển thị công khai chỉ sau vài tháng đăng tải.

Internet Archive “cứu” trung bình 10.000 liên kết hỏng trên các trang Wikipedia mỗi ngày, và tổng cộng đến nay đã có hơn 23 triệu liên kết được khôi phục. Kahle nhấn mạnh rằng sự suy thoái kỹ thuật số nhanh chóng là một mối đe dọa nghiêm trọng đối với việc bảo tồn lịch sử. Ông ví von: “Chúng ta đang xây dựng nền văn hóa trên cát lún”.

Hiện nay, sự phát triển của trí tuệ nhân tạo (AI) và chatbot đang đặt ra những thách thức mới cho Internet Archive, buộc tổ chức phải thay đổi cách thức ghi lại lịch sử Internet. Bên cạnh các trang web truyền thống, thư viện cũng bắt đầu lưu trữ nội dung do AI tạo ra, ví dụ như câu trả lời của ChatGPT và các đoạn tóm tắt xuất hiện ở đầu kết quả tìm kiếm của Google. Internet Archive đang thử nghiệm việc lưu giữ quá trình người dùng tương tác với chatbot bằng cách đặt ra hàng trăm câu hỏi và lệnh mỗi ngày, sau đó lưu lại cả truy vấn lẫn kết quả.

CNN nhận định rằng việc lưu trữ web đang trở nên quan trọng và khó khăn hơn bao giờ hết. Hồi tháng 1, Nhà Trắng đã yêu cầu gỡ bỏ hàng loạt trang web chính phủ, khiến nhiều thông tin quan trọng biến mất. Trong khi đó, AI đang làm mờ ranh giới giữa nội dung thật và giả, đồng thời làm giảm nhu cầu truy cập các trang web trực tiếp. Ngày càng nhiều nội dung trên Internet bị ẩn sau các bức tường phí hoặc trong những cuộc trò chuyện với chatbot.

Trong bối cảnh đó, nhiệm vụ của Internet Archive là tìm cách bảo tồn tất cả lượng thông tin khổng lồ này. Kahle chia sẻ với CNN: “Chúng tôi ở đây để cố gắng cung cấp một bản sao lưu về những gì đã xảy ra, giúp mọi người học hỏi và dựa vào đó để xây dựng một tương lai tốt đẹp hơn, hoặc phát triển những ý tưởng mới xứng đáng có một vị trí trong thư viện số”.

Admin


Nguồn: VnExpress

Leave a Reply

Your email address will not be published. Required fields are marked *