Tài liệu

File dữ liệu và tổ chức file dữ liệu trong Fortran

Science and Technology

Khái niệm về file dữ liệu và tổ chức lưu trữ dữ liệu

Ở các chương trước, trong quá trình thực hiện chương trình, khi nào cần ta đã sử dụng lệnh READ để nhập thông tin vào qua bàn phím cho chương trình xử lý. Thí dụ: khi chạy chương trình giải phương trình bậc hai trong thí dụ 1 ở chương 4, ta phải nhập ba hệ số a,b,c size 12{a, b, c} {}. Với một lượng thông tin không nhiều, thí dụ một vài giá trị số hay một vài ký tự văn bản, thì hình thức giao tiếp này giữa người và máy là bình thường. Nhưng khi làm việc với nhiều số liệu, sẽ là bất tiện nếu phải nhập dữ liệu bằng tay như vậy mỗi lần chạy chương trình. Thí dụ, trong bài toán đã xét ở thí dụ 8 (trang 74) ta phải nhập từ bàn phím hai chuỗi giá trị độ sâu và nhiệt độ gồm vài chục số liệu ở các tầng khác nhau (64 số) chỉ để nội suy một giá trị nhiệt độ. Ngoài ra, nếu trong khi chạy chương trình mà ta gõ nhầm số liệu thì phải chạy lại chương trình từ đầu và đương nhiên phải nhập lại số liệu một lần nữa. Công việc đó tỏ ra rất mệt mỏi và không tối ưu.

Vì vậy, người ta thường nhập dữ liệu vào máy một lần và lưu trong máy (đĩa cứng, đĩa mềm...) dưới dạng các tệp (file). Trong trường hợp này người sử dụng máy phải dùng một phần mềm soạn thảo nào đó để nhập dữ liệu vào máy và lưu lại dưới dạng các file. Ngoài ra, dữ liệu (thường là những giá trị số) cũng có thể do một thiết bị quan trắc có bộ phận ghi lưu vào đĩa từ, băng từ, ổ cứng máy tính theo một quy cách nào đó sau này máy tính có thể đọc được. Dữ liệu cũng có thể là kết quả tính toán, xử lý của một chương trình máy tính, sau đó được ghi lại thành file để người sử dụng máy xem như là kết quả tính toán để phân tích, nhận xét, sau này có thể in ra giấy như là một bản báo cáo, hay để một chương trình khác đọc và tiếp tục xử lý, chế biến.

Trong chương này chúng ta sẽ nghiên cứu những lệnh của Fortran thao tác với dữ liệu, tìm hiểu những đặc điểm của chúng để hình thành kỹ thuật tổ chức lưu dữ liệu trong máy tính.

File dữ liệu là file trong máy tính chứa những thông tin có quan hệ với nhau theo một nghĩa nào đó mà một chương trình có thể đọc, hay truy cập được nếu ta muốn chương trình xử lý tự động những thông tin đó.

Chương trình máy tính truy cập đến các file theo tên của chúng. Tên file được đặt tuân theo quy tắc tên như đối với các biến. Ngoài ra tên file còn có thể có một phần mở rộng, còn gọi là đuôi file, gồm tổ hợp không quá ba chữ cái hoặc chữ số. Phần mở rộng này đứng sau phần tên chính của file và ngăn cách bằng dấu chấm.

Trong thực hành người ta thường đặt tên file bằng tập hợp một số chữ cái và chữ số có ý nghĩa gợi cho người dùng dễ nhớ đó là file chứa những dữ liệu gì. Thí dụ, nếu chúng ta có những số liệu quan trắc về nhiệt độ không khí của một số tháng muốn lưu trong một số file thì có thể nên đặt tên các file đó là NHIET.1, NHIET.2 v.v... Ở đây ngụ ý muốn dùng cụm chữ NHIET để chỉ các file đó lưu trữ số liệu về nhiệt độ, còn phần đuôi của tên file nhằm chỉ số liệu về nhiệt nhưng riêng cho tháng 1, tháng 2... Các file trong máy tính lại có thể được ghi vào những thư mục có tên khác nhau. Trong mỗi thư mục lại có thể gồm một số thư mục con cũng có tên của chúng, hình thành một cây thư mục. Một nhóm file có quan hệ tương đối với nhau theo nghĩa nào đó có thể ghi chung vào một thư mục, một số file khác thì có thể ghi trong những thư mục khác. Kinh nghiệm cho thấy rằng việc tổ chức lưu các file trong máy tính một cách có hệ thống, khoa học sẽ giảm nhẹ và nâng cao hiệu quả công việc của người sử dụng máy tính.

Xét về phương diện lưu trữ dữ liệu lâu dài thì người ta thường cố gắng ghi trong file sao cho phong phú thông tin, đáp ứng việc xử lý nhiều mục đích. Thí dụ, với file chứa những số liệu các tham số khí tượng thuỷ văn ở một trạm quan trắc nào đó, thì ngoài những giá trị số của các tham số đó, nên có thêm những thông tin về tên trạm, tọa độ trạm, thời kỳ quan trắc, có thể ghi tên các tham số quan trắc một cách tường minh...

Tùy theo đặc điểm và khả năng xử lý của chương trình hay phần mềm mà người ta ghi các dữ liệu trong file sao cho gọn, dễ đọc, dễ chuyển đổi từ định dạng (format) này sang định dạng khác, tức xu thế chuẩn hóa định dạng dữ liệu để nhiều chương trình, nhiều phần mềm có thể đọc được.

Trong chương này chúng ta học cách làm việc với những file dữ liệu số, làm thế nào để đọc thông tin từ file dữ liệu hiện tồn tại và làm thế nào để tạo ra file dữ liệu mới trong chương trình Fortran mà chúng ta viết.

Các lệnh nhập, xuất dữ liệu với file

Để sử dụng các file với chương trình của mình, chúng ta phải dùng những lệnh mới để thao tác với file và những mở rộng đối với một số lệnh đã nghiên cứu trong các chương trước. Những lệnh này truy cập đến tên file mà ta đã gán khi tạo lập file. Nếu ta tạo lập một file dữ liệu bằng phần mềm soạn thảo, ta gán tên cho file khi nhập dữ liệu. Nếu ta tạo ra một file bằng một chương trình, ta phải dùng một lệnh trong chương trình cấp cho file một tên nhất định.

Nếu một file chuẩn bị được dùng trong chương trình, file đó phải được mở ra trước khi có một thao tác nào đó với nó. Lệnh mở file OPEN báo cho chương trình một số thông tin cần thiết về file như tên file, file đó mở ra để đọc hay để ghi dữ liệu. Ngoài ra lệnh OPEN gắn file được mở với một số hiệu file để khi nào chương trình truy cập file thì nó sử dụng số hiệu đó. Dạng tổng quát của lệnh OPEN mà ta sử dụng trong chương này như sau:

OPEN (UNIT =biểu thức nguyên, FILE =tên file, STATUS =văn bản)

trong đó biểu thức nguyên chỉ định một số hiệu thiết bị được gán cho file, tên file chỉ định một tên mà ta đã gán cho file khi tạo lập ra nó và văn bản STATUS báo cho chương trình biết file mở ra để đọc hay để ghi, file đã tồn tại hay chuẩn bị tạo ra. Nếu là file để đọc, ta chỉ định

STATUS = 'OLD'

nếu file mở ra để xuất, ta chỉ định

STATUS = 'NEW'

còn

STATUS = 'UNKNOWN'

cho phép mở file mới hoặc ghi đè lên file đã tồn tại.

Lệnh OPEN phải đứng trên những lệnh READ hoặc WRITE sử dụng file.

Để đọc file dữ liệu, ta sử dụng lệnh READ mở rộng dưới dạng:

READ (Số hiệu thiết bị , *) Danh sách các biến

Để ghi thông tin vào file dữ liệu ta sử dụng lệnh WRITE. Giống như lệnh PRINT, lệnh WRITE có thể sử dụng để xuất thông tin ra dưới dạng danh sách liệt kê và dưới dạng ghi không định dạng hoặc có định dạng:

WRITE (Số hiệu thiết bị , *) Danh sách các biểu thức

WRITE (Số hiệu thiết bị , n size 12{n} {} ) Danh sách các biểu thức

trong đó n size 12{n} {} là nhãn của lệnh FORMAT (định dạng) tương ứng. Trong tất cả các dạng tổng quát trên đây số hiệu thiết bị phù hợp với số hiệu thiết bị đã gán trong lệnh OPEN. Dấu sao * đứng sau số hiệu thiết bị chỉ rằng ta đang sử dụng cách nhập và xuất không định dạng (không format).

Các máy tính có thể có một số thiết bị nhập hoặc xuất đi kèm. Mỗi thiết bị được gán một số hiệu. Thí dụ, nếu máy in lazer được gán số hiệu 8 thì lệnh in sau đây sẽ ghi giá trị của các biến X size 12{X} {}Y size 12{Y} {} ra máy in laser

WRITE (8 , *) X, Y

Đa số các hệ máy tính gán thiết bị nhập chuẩn (bàn phím) bằng số 5 và thiết bị xuất chuẩn (màn hình) bằng số 6; những thiết bị này đã được dùng ngầm định với các lệnh READ * hay PRINT *. Do đó không nên dùng những số hiệu thiết bị đã gán trước này cho các file dữ liệu. Ta có thể dùng bất kỳ những số hiệu khác trong các số nguyên từ 1 đến 15 để chỉ đơn vị file.

Sau khi kết thúc đọc hoặc ghi file, các file tự động đóng lại trước khi chương trình kết thúc. Cũng có những trường hợp ta muốn chủ tâm đóng hay tách một file khỏi chương trình của mình, và điều này nên làm. Ta sẽ dùng lệnh đóng file có dạng tổng quát như sau:

CLOSE (UNIT = Biểu thức nguyên)

Những lệnh mở, đóng file, xuất nhập thông tin với file trên đây còn có nhiều tùy chọn bổ sung khác nữa, sẽ được nhắc tới ở những nơi thích hợp trong các mục và các chương sau.

Dưới đây tóm tắt một số quy tắc quan trọng cần nhớ khi đọc dữ liệu từ các file:

1. Mỗi lệnh READ sẽ bắt đầu đọc với một dòng dữ liệu mới, gọi là một bản ghi (record). Nếu còn thừa các giá trị ở dòng trước, thì những giá trị đó bị bỏ qua không đọc.

2. Nếu một dòng không chứa đủ các giá trị so với danh sách các biến cần đọc trong lệnh READ, thì các dòng dữ liệu sau đó sẽ tự động được đọc cho đến khi đủ giá trị cho các biến liệt kê trong lệnh READ.

3. Một lệnh READ không cần phải đọc tất cả các giá trị trên dòng dữ liệu hiện thời. Nhưng nó phải đọc tất cả những giá trị trên dòng ở trước giá trị mà ta muốn nó đọc. Thí dụ nếu một file có 5 giá trị ghi trên một dòng và ta cần các giá trị thứ ba và thứ tư, ta phải đọc qua các giá trị thứ nhất và thứ hai để đạt tới các giá trị thứ ba và thứ tư, nhưng ta không cần phải đọc giá trị thứ năm.

Để sử dụng đúng lệnh READ, ta cần biết các giá trị đã được ghi trong file như thế nào. Thí dụ, giả sử rằng mỗi dòng của file dữ liệu chứa hai số tuần tự biểu thị thời gian TIME và số đo nhiệt độ TEMP và ba dòng đầu tiên ghi như sau:

0.0 28.3 (dòng 1)

0.1 29.1 (dòng 2)

0.2 29.5 (dòng 3)

thì lệnh sau đây sẽ đọc được đúng một cặp giá trị thời gian và nhiệt độ từ file dữ liệu

READ (10, *) TIME, TEMP

Nhưng sẽ là sai nếu ta dùng hai lệnh sau

READ (10, *) TIME

READ (10, *) TEMP

Thực hiện hai lệnh này sẽ đọc hai dòng của file dữ liệu: giá trị của biến TIME sẽ bằng 0.0 và giá trị của biến TEMP sẽ bằng 0.1. Trong trường hợp này chương trình vẫn làm việc bình thường nhưng kết quả xử lý sẽ sai. Thí dụ này minh hoạ sự quan trọng của việc kiểm tra chương trình của chúng ta đối với dữ liệu đã biết, trước khi sử dụng nó với file dữ liệu khác.

Kỹ thuật đọc các file dữ liệu

Để đọc các dữ liệu từ file dữ liệu, trước hết ta phải biết một số thông tin về file. Ngoài tên file, ta phải biết dữ liệu gì được lưu trong file và cụ thể ghi như thế nào: có bao nhiêu số ghi trên một dòng và các đơn vị đo của mỗi giá trị. Ta cũng phải biết trong file có thông tin gì đặc biệt có ích để phân định được số dòng ghi trong file, hay để xác định khi nào ta đã đọc hết dòng ghi cuối cùng. Thông tin này quan trọng, vì nếu ta thực hiện một lệnh READ sau khi tất cả các dòng ghi trong file đã được đọc hết rồi thì sẽ bị lỗi thực hiện chương trình. Ta có thể tránh lỗi đó bằng cách sử dụng thông tin về file để quyết định xem loại vòng lặp nào nên dùng khi đọc file. Thí dụ, nếu ta biết có 200 dòng ghi trong file thì đương nhiên có thể dùng vòng lặp DO thực hiện 200 lần đọc và tính toán với số liệu đọc được. Nhiều khi ta không biết trước có bao nhiêu dòng ghi trong file, nhưng ta biết dòng ghi cuối cùng chứa những giá trị đặc biệt làm cho chương trình của chúng ta có thể kiểm tra được. Thí dụ, nếu một file chứa các số liệu về thời gian và số đo nhiệt độ dưới dạng hai cột, thì cả hai cột ở dòng cuối cùng nên chứa hai số -999 để ký hiệu rằng đây là dòng cuối cùng của file. Trong trường hợp này ta có thể lập vòng lặp While để đọc các dòng số liệu và điều kiện kết thúc vòng lặp này là hai giá trị thời gian và nhiệt độ đều bằng -999. Có trường hợp ta không biết có bao nhiêu dòng ghi và ở cuối file cũng không có các giá trị đặc biệt để nhận biết. Khi đó ta phải nhờ đến các tùy chọn (options) của lệnh READ.

Số dòng ghi được chỉ định

Nếu ta biết chắc số dòng ghi, có thể dùng vòng lặp DO để xử lý file. Khi tạo lập file, ngay ở dòng ghi đầu, ta nên ghi một số thông tin chuyên dụng về file, trong đó có số dòng ghi (số số liệu) trong file. Về sau, mỗi lần bổ sung số liệu vào file dữ liệu, ta cần sửa lại dòng ghi này. Khi xử lý file, ta đọc số này vào một biến. Sau đó dùng vòng lặp DO với biến đó làm giới hạn cuối của vòng lặp để đọc hết số liệu trong file.

Thí dụ 14: Cách đọc file có thông tin về số dòng số liệu ở dòng đầu file. Giả sử file có tên là SOLIEU.DAT chứa các giá trị trung bình ngày của nhiệt độ, độ ẩm không khí và áp suất khí quyển tại một trạm quan trắc trong nhiều ngày. Mỗi dòng của file ghi tuần tự ba đại lượng trên cho một ngày. Riêng dòng thứ nhất ghi tổng số số liệu (số ngày). Đoạn chương trình đọc số liệu từ file này và tính giá trị trung bình của ba đại lượng có thể như sau:

INTEGER N, K
REAL ND, DA, AS, NDTB, DATB, ASTB
OPEN (UNIT = 2, FILE = 'SOLIEU.DAT', STATUS = 'OLD')
READ (2 ,*) N
IF (N .LT. 1) THEN
PRINT *, ' TRONG FILE KHONG CO SO LIEU '
ELSE
NDTB = 0.0
DATB = 0.0
ASTB = 0.0
DO 15 K = 1, N
READ (2, *) ND, DA, AS
NDTB = NDTB + ND
DATB = DATB + DA
ASTB = ASTB + AS
15 CONTINUE
NDTB = NDTB / REAL (N)
DATB = DATB / REAL (N)
ASTB = ASTB / REAL (N)
PRINT 25 , N, NDTB, DATB, ASTB
END IF
25 FORMAT (1X, 'SO NGAY = ' , I5 , ' ND =' , F6.2 , ' DA =' ,
* F6.2 , ' AS =' , F7.1)
CLOSE (2)
END

Trong thí dụ này, số số liệu được đọc từ dòng thứ nhất của file và gán vào biến N size 12{N} {}. Lệnh IF kiểm tra nếu N<1 size 12{N<1} {} thì thông báo không có số liệu; nếu có số liệu thì đọc hết tất cả số liệu và tính các giá trị trung bình. Và ta thấy biến N size 12{N} {} được dùng làm tham số giới hạn cuối của lệnh DO.

Dòng ký hiệu kết thúc dữ liệu

Những giá trị đặc biệt dùng để đánh dấu sự kết thúc của file dữ liệu gọi là ký hiệu kết thúc (Trailer hay Flags). Khi tạo lập file, ta thêm một số con số đặc biệt trong dòng ghi cuối cùng. Về sau, nếu ta thêm hoặc xóa đi một số số liệu trong file, sẽ không phải sửa lại số ghi tổng số số liệu. Tuy nhiên, nếu dùng phương pháp này để đánh dấu hết file, thì phải cẩn thận sao cho chương trình của chúng ta không được đưa những giá trị đặc biệt vào xử lý như các giá trị bình thường khác. Có thể chúng ta phải ghi chú về điều này ở dòng đầu file. Ngoài ra, nếu dòng số liệu bình thường chứa bao nhiêu giá trị thì dòng ký hiệu kết thúc cũng nên có chừng đó giá trị đặc biệt để đảm bảo cho lệnh đọc không mắc lỗi chạy chương trình. Người ta thường chọn các giá trị đặc biệt sao cho chúng khác hẳn với những giá trị bình thường, dễ nhận ra khi xem bằng mắt các số liệu trong file, thí dụ như số nguyên lớn nhất 32767, một tập hợp các số chín như 99999. Ta cũng có thể dùng cách này để đánh dấu những giá trị khuyết trong các chuỗi số liệu (Flags- cờ hiệu báo hết file hoặc khuyết số liệu).

Thí dụ 15: Cách đọc file có dòng số liệu đánh dấu hết file ở cuối file và cờ hiệu báo khuyết số liệu. Giả sử file dữ liệu với nội dung như trong thí dụ 14, nhưng được tạo ra theo cách đánh dấu kết thúc dữ liệu bằng dòng gồm ba cụm số 99999. Ngoài ra, trong các dòng số liệu bình thường có những giá trị khuyết, không quan trắc, được đánh dấu bằng con số 32767. Chương trình sau đây cho phép đọc và tính toán đúng các trị số trung bình của ba đại lượng:

INTEGER N1, N2, N3
REAL ND, DA, AS, NDTB, DATB, ASTB
OPEN (UNIT = 2, FILE = 'SOLIEU.DAT', STATUS = 'OLD')
N1 = 0
N2 = 0
N3 = 0
NDTB = 0.0
DATB = 0.0
ASTB = 0.0
60 READ (2, *) ND, DA, AS
IF (ND.NE. 99999 .OR. DA .NE. 99999 .OR. AS .NE. 99999) THEN
IF (ND .NE. 32767.) THEN
NDTB = NDTB + ND
N1 = N1 + 1
END IF
IF (DA .NE. 32767.) THEN
DATB = DATB + DA
N2 = N2 + 1
END IF
IF (AS .NE. 32767.) THEN
ASTB = ASTB + AS
N3 = N3 + 1
END IF
GOTO 60
END IF
CLOSE (2)
IF (N1 .EQ. 0 .AND. N2 .EQ. 0 .AND. N3 .EQ. 0) THEN
PRINT * , ' TRONG FILE KHONG CO SO LIEU '
ELSE
IF (N1 .GT. 0) PRINT * , ' NHIET DO TRUNG BINH = ',
* NDTB / REAL (N1)
IF (N2 .GT. 0) PRINT * , ' DO AM TRUNG BINH = ',
* DATB / REAL (N2)
IF (N3 .GT. 0) PRINT * , ' AP SUAT TRUNG BINH = ',
* ASTB / REAL (N3)
END IF
END

Sử dụng tùy chọn END

Trường hợp không biết số dòng dữ liệu trong file và không có dòng thông tin về dấu hiệu kết thúc dữ liệu trong file, ta phải sử dụng một kỹ thuật khác. Lệnh READ trong Fortran có một tùy chọn giúp kiểm tra sự kết thúc của file và rẽ nhánh sang một lệnh được chỉ định nếu phát hiện hết file. Lệnh READ với tùy chọn này có dạng sau:

READ (Số hiệu file , * , END = n size 12{n} {} ) Danh sách các biến

Khi nào còn dữ liệu trong file lệnh này thực hiện giống như lệnh

READ (Số hiệu file , *) Danh sách các biến

Tuy nhiên, nếu dòng dữ liệu cuối cùng đã đọc xong và ta thực hiện lệnh READ với tùy chọn END thì thay vì phạm lỗi thực hiện lệnh, điều khiển được chuyển tới lệnh có nhãn n size 12{n} {} trong tùy chọn END. Nếu lệnh READ thực hiện một lần nữa sau khi đã đạt đến cuối file, thì lỗi chạy chương trình sẽ xuất hiện.

Lệnh READ với tùy chọn END thực sự là một dạng đặc biệt của vòng lặp điều kiện While:

5 READ (10, *, END = 15) TEMP
SUM = SUM + TEMP
N = N +1
GOTO 5
15 PRINT * , SUM

Dạng đặc biệt này của vòng lặp điều kiện chỉ nên thực hiện khi nào ta không biết số dòng dữ liệu và không có dòng ký hiệu báo hết dữ liệu. Việc chọn kỹ thuật hợp lý để đọc dữ liệu từ file phụ thuộc vào thông tin trong file dữ liệu.

Thí dụ 16: Sử dụng tùy chọn END. Với file dữ liệu nội dung như trong thí dụ 14, giả sử không có dòng đầu tiên thông báo về độ dài chuỗi dữ liệu, ta thực hiện chương trình tính các trị số trung bình như sau:

INTEGER N, K
REAL ND, DA, AS, NDTB, DATB, ASTB
OPEN (UNIT = 2, FILE = 'SOLIEU.DAT', STATUS = 'OLD')
NDTB = 0.0
DATB = 0.0
ASTB = 0.0
N = 0
C Nếu đọc hết số liệu tùy chọn END = 15 sẽ chuyển đến lệnh 15
5 READ (2, *, END = 15) ND, DA, AS
NDTB = NDTB + ND
DATB = DATB + DA
ASTB = ASTB + AS
N = N + 1
GOTO 5
15 CLOSE (2)
IF (N .EQ. 0) THEN
PRINT *, ' TRONG FILE KHONG CO DU LIEU'
ELSE
NDTB = NDTB / REAL (N)
DATB = DATB / REAL (N)
ASTB = ASTB / REAL (N)
PRINT 25 , N, NDTB, DATB, ASTB
END IF
25 FORMAT (1X, ' SO NGAY = ', I5 , ' ND =' , F6.2 , ' DA =' ,
* F6.2 , ' AS =' , F7.1)
END

Tạo lập các file dữ liệu

Để tạo mới file dữ liệu, chúng ta sử dụng các lệnh OPEN và WRITE. Tuy nhiên, trước khi ta bắt đầu viết các lệnh Fortran, cần cân nhắc xem sau này đọc file dữ liệu sẽ sử dụng kỹ thuật nào trong ba kỹ thuật đã mô tả trong mục 6.3.

Khi tạo lập file với dòng ký hiệu báo hết dữ liệu phải cẩn thận lựa chọn giá trị dùng làm ký hiệu. Phải tin chắc rằng giá trị được chọn làm giá trị báo hết dữ liệu không thể nào nhầm với giá trị dữ liệu thực sự. Có thể chúng ta phải có ghi chú ở đầu file để mọi người dùng file được biết.

Nếu ta quyết định tạo file với thông tin báo tổng số dòng dữ liệu trên đầu file, thì phải chú ý cập nhật dòng đầu file mỗi khi bổ sung hoặc cắt bớt số dòng dữ liệu. Nếu số dòng dữ liệu không đúng, thì hoặc chương trình đọc sẽ đọc số dòng dữ liệu ít hơn số dòng thực có, hoặc chương trình cố đọc nhiều dòng hơn trong file thực có và dẫn đến lỗi trong khi chạy chương trình.

So sánh ba phương án tổ chức thông tin dữ liệu ở trên, ta thấy về phương diện tối ưu chương trình thì cách dùng số báo số dòng dữ liệu ở đầu file là tốt hơn cả, vì khi đọc được tổng số dòng số liệu ta có thể đọc hết dữ liệu bằng vòng lặp DO, trong khi hai phương án sau chương trình luôn luôn phải kiểm tra biểu thức lôgic trong khi đọc lặp. Ngoài ra rất có thể có những nhiệm vụ xử lý không cần đọc hết file, mà chỉ cần đọc số lượng số liệu của file ở dòng đầu.

Kỹ thuật trợ giúp tìm lỗi chương trình

Thật vô nghĩa nếu một chương trình xử lý dữ liệu mà lại đọc sai dữ liệu trong file. Mà điều này không phải là không bao giờ xảy ra. Trường hợp số dòng dữ liệu thực tế trong file có ít hơn số vòng lặp đọc dữ liệu thì chương trình sẽ báo lỗi chạy chương trình. Khi đó chúng ta buộc phải xem lại chương trình hoặc xem lại file dữ liệu và dễ dàng phát hiện lỗi ở đâu. Tuy nhiên có những trường hợp lỗi chạy chương trình không phát sinh, nhưng kết quả chương trình cho ra sai. Nếu kết quả sai vô lý, rõ ràng thì chúng ta cũng biết và tìm nguyên nhân ở chương trình hay ở file dữ liệu. Đáng sợ nhất là những trường hợp đọc “nhầm dữ liệu”, đọc hơi thiếu dữ liệu. Khi đó chương trình làm việc bình thường, kết quả tỏ ra chấp nhận được, nhưng thực chất là sai hoặc không chính xác. Do đó, trong lập trình phải rất thận trọng với file dữ liệu.

Khi tìm lỗi một chương trình làm việc với các file dữ liệu, điều rất quan trọng là kiểm tra xem các lệnh nhập, xuất dữ liệu có làm việc đúng đắn, chính xác không.

Trong thực tế các file dữ liệu có thể do bản thân người lập trình xây dựng, cũng có thể người lập trình nhận được trong quá trình trao đổi dữ liệu với đồng nghiệp của mình. Trong những trường hợp đó, trước khi viết những lệnh đọc file dữ liệu phải nghiên cứu kĩ cấu trúc của file, đọc kĩ tài liệu mô tả file, phải tin chắc tuyệt đối những thông tin trong file là những thông tin gì, cách thức ghi ở trong đó ra sao thì mới đọc file đúng và chính xác. Đặc biệt lần đầu tiên làm việc với một loại file phải kiểm tra kĩ lưỡng kết quả đọc file.

Hãy nên nhớ rằng trong số những yếu tố của Fortran thì vấn đề làm việc với file có thể xem là vấn đề khó nhất và lý thú nhất.

Với các file dữ liệu nhập, ta nên thử chương trình với một file dữ liệu nhỏ, sao cho ta có thể in lên màn hình từng dòng dữ liệu khi chương trình đọc vào. Hãy kiểm tra xem chương trình có bỏ qua dòng dữ liệu, hoặc một giá trị nào không. Nếu file dữ liệu có ghi số dòng dữ liệu, thì hãy in số đó ra sau khi đọc.

Với các file dữ liệu xuất, sau khi tạo lập ra nó, hãy mở ra xem lại nội dung file. Nên xem cấu trúc file có như ta dự định không, những giá trị có đúng là nằm ở những chỗ nó cần nằm không. Ngoài ra cần phải kiểm tra file đầu ra trong nhiều phương án chạy chương trình. Rất có thể trong một trường hợp ta thấy mọi chuyện đều ổn, nhưng đến trường hợp khác thì tình hình không phải như vậy. Chỉ có kiểm tra kĩ thì mới tránh được những lỗi tiềm ẩn khó nhận biết trong chương trình.

Bài tập

1. File dữ liệu LAB1 chứa nhữnng thông tin về thời gian và nhiệt độ trên mỗi dòng như sau:

0.0 26.5 (dòng 1)

0.5 28.7 (dòng 2)

1.0 29.1 (dòng 3)

1.5 29.2 (dòng 4)

2.0 29.4 (dòng 5)

2.5 29.7 (dòng 6)

Hãy cho biết giá trị của các biến sau khi mỗi nhóm lệnh dưới đây thực hiện. Giả sử rằng trước khi thực hiện mỗi nhóm lệnh đó, thì file dữ liệu đã được mở và chưa từng có một lệnh READ nào được thực hiện:

1) READ (1, *) TIM, TEM

2) READ (1, *) TIM1, TEM1, TIM2, TEM2

3) READ (1, *) TIM

4) READ (1, *) TIM1, TEM1

READ (1, *) TEM

READ (1, *) TIM2, TEM2

5) READ (1, *) TIM1

6) READ (1, *) TIM1, TIM2

READ (1, *) TEM1

READ (1, *) TEM1, TEM2

READ (1, *) TIM2

READ (1, *) TEM2

2. File dữ liệu có tên CONDAO.TEM có nội dung ghi như sau: Dòng thứ nhất - tiêu đề báo rằng đây là số liệu về biến thiên nhiệt độ không khí tại trạm Côn Đảo. Dòng thứ hai - đơn vị đo (°C). Dòng thứ ba tuần tự ghi các tham số: số năm quan trắc, tháng, năm bắt đầu và tháng, năm kết thúc quan trắc. Dòng thứ tư gồm 12 cột ghi các tháng trong năm. Các dòng tiếp sau tuần tự ghi những giá trị nhiệt độ ứng với từng tháng thành 12 cột, trong đó những tháng khuyết số liệu được ghi bằng số -9.9 (bảng phía dưới).

OSCILLATION OF TEMPERATURE OF THE AIR AT STATION CONDAO

degree C

12 1 1979 12 1990

1 2 3 4 5 6 7 8 9 10 11 12
25.2 25.7 27.3 28.7 29.0 27.7 27.2 27.5 27.2 -9.9 26.8 25.3
25.0 25.6 27.2 28.5 28.6 27.6 27.8 27.0 27.4 26.7 26.8 25.8
24.6 25.0 26.9 28.6 28.1 28.0 28.0 27.9 26.9 27.0 26.3 25.0
24.5 25.2 -9.9 -9.9 28.3 27.8 27.2 27.2 27.4 26.7 27.4 26.1
25.3 25.7 26.6 28.2 29.1 28.2 28.0 27.5 26.9 27.2 25.9 25.5
24.7 25.1 25.9 27.9 27.8 27.2 27.2 27.8 26.3 26.5 26.9 25.8
25.4 26.4 27.0 27.3 27.7 28.3 27.5 28.0 26.8 26.5 26.9 25.7
24.5 24.8 25.6 28.1 28.8 28.2 27.8 27.6 26.8 26.8 26.4 25.5
25.2 25.2 27.0 28.9 28.5 28.0 28.6 27.7 27.3 26.9 27.2 25.9
25.8 26.6 27.1 28.3 28.1 28.0 27.3 27.6 27.2 27.0 26.1 24.8
25.3 24.7 25.9 27.2 27.6 27.9 27.7 27.3 27.4 26.6 26.7 25.4
25.6 26.0 27.2 29.0 28.5 28.3 28.2 27.8 27.6 27.4 26.6 25.8

Hãy lập đoạn chương trình đọc file này và in lại lên màn hình toàn bộ dữ liệu gốc cùng biến trình năm trung bình của nhiệt độ không khí ở dòng cuối cùng.

3. Lập đoạn chương trình đọc file dữ liệu với nội dung như trong bài tập 2 và ghi lại thành file cùng tên, áp dụng kỹ thuật dùng dòng ký hiệu đánh dấu kết thúc dữ liệu trong mục 6.3.2.

4. Trong file tên là DATA1, mỗi dòng ghi thời gian tính bằng giây và nhiệt độ tính bằng độ C. Dòng cuối cùng là dòng báo hết dữ liệu chứa giá trị -999.9 cho cả thời gian và nhiệt độ. Hãy đọc file dữ liệu này và sắp xếp giá trị nhiệt độ theo thứ tự giảm dần. In chuỗi nhiệt độ đã sắp xếp thành dạng 10 giá trị một dòng. Giả sử trong file có không quá 200 dòng dữ liệu.

5. Trong file tên là DATA2, mỗi dòng ghi thời gian tính bằng giây và nhiệt độ tính bằng độ C. Không có dòng tiêu đề và không có dòng báo hết dữ liệu. Hãy đọc file dữ liệu này và in ra số giá trị nhiệt độ, giá trị nhiệt độ trung bình và số giá trị nhiệt độ lớn hơn trung bình. Giả sử trong file có không quá 200 dòng dữ liệu.

6. Viết chương trình sửa lại file CONDAO.TEM trong bài tập 2 sao cho ở mỗi dòng số liệu có chỉ năm quan trắc tương ứng ở đầu dòng, giá trị nhiệt độ trung bình năm ở cuối dòng và giá trị nhiệt độ trung bình nhiều năm của từng tháng ở dòng dưới cùng.

7. Viết chương trình tìm nghiệm gần đúng với sai số cho phép 0,0001 của phương trình ex13ex+3,7x=0 size 12{e rSup { size 8{ - x} } - { {1} over {3} } sqrt {e rSup { size 8{x} } +3,7} - x=0} {} trong khoảng [0, 2] theo phương pháp lặp và in thông báo kết quả lên màn hình với 4 chữ số thập phân.

8. Viết chương trình nhập một số tự nhiên n size 12{n} {} nhỏ hơn 21, một số thực x size 12{x} {} bất kỳ nhỏ hơn 1. Xác định tổng:

sin x cos x + sin x + sin 2x cos x + cos 2x + sin x + sin 2x + sin 3x cos x + cos 2x + cos 3x + . . . + sin x + sin 2x + . . . + sin nx cos x + cos 2x + . . . + cos nx size 12{ { {"sin"x} over {"cos"x} } + { {"sin"x+"sin"2x} over {"cos"x+"cos"2x} } + { {"sin"x+"sin"2x+"sin"3x} over {"cos"x+"cos"2x+"cos"3x} } + "." "." "." + { {"sin"x+"sin"2x+ "." "." "." +"sin" ital "nx"} over {"cos"x+"cos"2x+ "." "." "." +"cos" ital "nx"} } } {}
Đánh giá:
0 dựa trên 0 đánh giá
Nội dung cùng tác giả
 
Nội dung tương tự