Co sở dữ liệu phân tán là gì năm 2024

Ngày nay công nghệ thông tin (CNTT) đã vượt ra ngoài khuôn khổ một đối tượng riêng của khoa học công nghệ. CNTT trở thành một nhân tố quan trọng trong sản xuất và phát triển kinh tế toàn xã hội với phạm vi toàn cầu. Trong nền kinh tế tri thức CNTT đóng vai trò then chốt. Mạng máy tính trở thành công cụ đắc lực không thể thiếu cho bất kỳ một tổ chức xã hội nào. Cơ sở dữ liệu phân tán (CSDLPT) nói riêng và các hệ phân tán nói chung là một lĩnh vực được nghiên cứu từ lâu, nhưng gần đây do sự phát triển nhanh chóng của công nghệ truyền tin và sự bành trưởng mạnh mẽ của mạng Internet, cùng với xu thế toàn cầu hoá trong mọi lĩnh vực, đặc biệt trong lĩnh vực thương mại, CSDLPT đã trở thành một lĩnh vực thu hút nhiều sự quan tâm của các nhà nghiên cứu trong lĩnh vực CNTT. Vậy CSDLPT là gì ? Để trả lời được câu hỏi này các nhà nghiên cứu đã, đang từng bước tiếp cận và sẽ trả lời chính xác. Tuy nhiên, trong khuôn khổ của cuốn sách này chúng tôi muốn trình bày các nguyên lý tổng quát nhất của CSDLPT đang được nhiều người quan tâm. Về mặt trực quan, nghĩa đen của cụm từ CSDLPT chứa hai cụm từ là cơ sở dữ liệu (CSDL) và phân tán (PT). Như vậy có thể nói CSDLPT là sự hợp nhất của hai hướng tiếp cận nghiên cứu, đó là cơ sở dữ liệu và phân tán.

Khái niệm phân tán ở đây chúng ta phải hiểu là phân tán thông tin và các thông tin đó được chửa trên các máy tính của một hệ thống máy tính có liên hệ với nhau được gọi là Mạng Máy Tính (MMT). Một cách hình ảnh chúng ta có thể nói:

Cơ sở dữ liệu phân tán = Cơ sở dữ liệu + Mạng máy tính.

Như vậy, một CSDLPT là một tập hợp nhiều CSDL có liền đổi logic và được phân bố trên một mạng máy tính. Trước tiên chúng ta cần nhân mạnh lại là một hệ CSDLPT không phải là một tập hợp các tập tin rời rạc được lưu riêng rẽ tại mỗi nút của một mạng máy tính. Để có một hệ CSDLPT, các tập tin không chỉ có liên đới logic với nhau mà chúng còn phải có cấu trúc và được truy xuất qua một giao diện chung. Tuy nhiên, gần đây trong thực tiễn đang hình thành dần một hướng phân tán dữ liệu bán cầu trúc (semi-structured data), được lưu trong các tập tin trên Internet kiểu như các trang Web. Tất nhiên, kiểu truy xuất đến dữ liệu bản cấu trúc như trang Web khác với truy xuất dữ liệu của một hệ CSDLPT. Có hai hướng nghiên cứu để tiếp cận CSDLPT đó là các mô hình CSDL, đặc biệt là mô hình CSDL quan hệ và MMT ( mạng máy tính), các phương pháp phân tán dữ liệu trên MMT.

Một câu hỏi được đặt ra là, trong một hệ CSDLPT thì những gì được phân tán? Đó là: (1) Thiết bị xử lý, (2) Chức năng; (3) Dữ liệu; (4) Quyền điều khiển.

Trong một MMT thì thiết bị xử lý ngầm định phân tán, vì các bộ phận của mạng được phân bố tại các vị trí địa lý khác nhau.

Một kiểu phân tán nữa đó là chức năng. Nhiều chức năng của hệ thống máy tính có thể được chuyển giao cho nhiều bộ phận khác nhau.

Kiểu phân tán thứ ba là phản tán dữ liệu. Dữ liệu được dùng bởi một số ứng dụng khác nhau có thể được phân bố ở một số vị trí khác nhau.

Cuối cùng là phần lán quyền điều khiển (control). Quyền điều khiển một số công việc trong hệ thống được phân cấp, chia quyền theo chức năng,

Giáo trình có bảy chương. Chương 1 là một số khái niệm cơ bản của MMT. Chúng tôi coi CSDL quan hệ là một phần cốt yếu của CSDLPT nói riêng và CSDL nói chung nên trong chương 2 chúng tôi cố gắng nếu đầy đủ các khái niệm liên quan đến CSDL quan hệ như các định nghĩa quan hệ, các phép toán trên quan hệ, khái niệm phụ thuộc hàm, khái niệm khoa, các dạng chuẩn, v.v. Trong chương 3 chúng tôi nếu các lệnh cơ bản và thiết yếu của SQL, nhằm giúp các bạn tiếp cận một cách nhẹ nhàng, đơn giản một ngôn ngữ quan hệ đặc trưng. Đồng thời SQL cũng giúp các bạn một số khái niệm và ứng dụng văn tin trong các ứng dụng về mạng và các minh hoạ tiếp theo của giáo trình về các bài toán phân tán vấn tin ở các chương sau. Trong chương 4 chúng tôi sẽ trình bày các phương pháp phân mảnh ngang nguyên thuỷ, phân mảnh ngang dẫn xuất, phần mảnh dọc theo tụ lực của các thuộc tính( affinity of attributes), phân mảnh có nối không mất, bảo toàn phụ thuộc và phân mảnh thành BCNF, 3NF ... + Trong chương 4 chúng tôi cũng nếu các vấn đề liên quan đến khái niệm cấp phát dữ liệu như bài toán cấp phát, yêu cầu về thông tin cấp phát, mô hình và các giải pháp cấp phát, v.v. Chương 5 là chương dành cho các vấn đề cơ bản về xử lý vẫn tin và kiểm soát dữ liệu ngữ nghĩa như quản lý khung nhìn, an toàn dữ liệu, kiểm soát tính toàn vẹn dữ liệu, v.v. Trong chương 6 chúng tôi nếu một số khái niệm về quản lý giao dịch, các loại khoá chốt, lịch biểu tuần tự, khả tuần tự và các thuật toán kiểm tra một lịch biểu khi tuần tự hay không. Đồng thời trong chương này các bạn được làm quen với các khái niệm điều khiển đồng thời, các cơ chế điều khiển đồng thời, các thuật toán điều khiển đồng thời, các hệ cơ sở dữ liệu song song v.v . Cuối cùng trong chương 7 chúng ta sẽ nghiên cứu một số khái niệm của cơ sở dữ liệu hướng đối tượng phân tán. Chương này chúng ta sẽ xét các khái niệm như mô hình hướng đối tượng, thiết kế phản tấn đối t- ượng, quản lý đối tượng, v.v. Sau mỗi một chương, nếu có thể chúng tôi có một số bài tập, nhằm giúp các bạn củng cố những kiến thức lý thuyết của mình.

Mặc dù chúng tôi đã rất cố gắng nhưng không thể tránh khỏi những thiếu sót về cách diễn đạt, sự sắp xếp bố cục nội dung và các lỗi cú pháp, văn phong. Rất mong được bạn đọc góp ý cho chúng tôi. Cuối cùng, chúng tôi xin chân thành cảm ơn Phòng Sau đại học, Phòng Đào tạo Học viện Kỹ thuật Quân sự, PGS.,TS. Phạm Ngọc Phúc - Trưởng phòng Sau đại học, PGS.,TS. Nguyễn Văn Xuất - Chủ nhiệm Khoa Công nghệ Thông tin. TS. Đào Thanh Tĩnh, PGS.TS. Phạm Văn Ất - Chủ nhiệm Khoa Công nghệ Thông tin, Trường Đại học giao thông Vận tải Hà Nội, PGS.TS. Đoàn Văn Ban viện Công nghệ Thông tin, TS. Dương Tử Cường, ThS. Nguyễn Văn Thàng cùng các bạn đồng nghiệp trong khoa CNTT - Học viện Kỹ thuật Quân sự. Đặc biệt tác giả xin chân thành cảm ơn Ban biên tập Nhà xuất bản Khoa học và Kỹ thuật, đã có đóng góp và giúp đỡ xác đáng để cuốn sách sớm được ra mắt bạn đọc.