SWELL公式サイトへ 詳しくはこちら

Python活用:PDFからCSVへ効率的にデータ変換

  • URLをコピーしました!
目次

プロジェクトの背景

医療業界でのデータのデジタル化は、正確な情報管理と迅速なアクセスが患者ケアの質を向上させる上で重要です。診療報酬請求データの効率的な処理により、医療従事者の業務負担が軽減されますが、PDF文書からのデータ抽出は時間がかかりエラーが発生しやすい作業です。

この課題に対して、医療現場で働く知り合いから、診療行為マスタcsvには列名情報が欠落しており、PDF文書からの転記作業を回避したいという相談を受け、Pythonを用いたPDFからCSVへのデータ変換プロセスを提案しました。この方法により、”tensuhyo_01.pdf”から必要な情報を直接抽出し、診療マスタデータベースの構築を効率的かつ正確に行うことが可能になり、医療従事者の負担を大きく軽減します。

Pythonの強力なライブラリを活用して自動化することで、手作業によるデータ転記の時間とエラーを削減し、作業の質向上に貢献できます。

必要なモジュールとデータの紹介

この自動化プロセスには、以下のPythonモジュールが必要です。

  • pdfplumber: PDFファイル内のテキストや表を抽出する強力なライブラリです。内部的にPDFの構造を解析し、必要なデータを効率的に抽出することが可能です。
  • tkinter: Pythonに標準で含まれるGUIツールキットで、ユーザーフレンドリーなファイル選択ダイアログを簡単に作成できます。
  • re: 正規表現を用いて、抽出したデータから必要な情報を選別するための標準ライブラリです。
  • pandas: データ分析と操作に特化した強力なライブラリです。表形式のデータを効率的に処理し、データの読み込み、変換、保存などを簡単に行うことができます。データフレームという強力なデータ構造を用いて、複雑なデータ操作や分析を容易に実行できます。
  • PDF:tensuhyo_01.pdf 診療行為マスタの列名抽出に必要。(今回は、10ページから13ページ)
  • csv:R06_s.csv 診療行為マスタcsv

ステップバイステップの変換プロセス

1. モジュールのインポート

最初に、必要なモジュールをインポートします。

import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import pdfplumber
import csv
import re

2. PDFファイルの選択とページ範囲の指定

ユーザーがPDFファイルを選択し、処理するページ範囲を指定できるよう、tkinterのダイアログ機能を用います。今回の例では必要な情報は10から13ページになります。

def select_pdf():
    messagebox.showinfo("PDFをCSVに変換", "PDFファイルを選択してください。次に、処理するページ範囲を指定します。")
    path = filedialog.askopenfilename(filetypes=[("PDF files", "*.pdf")])
    if path:
        page_range = simpledialog.askstring("ページ範囲の入力", "処理するページ範囲を入力してください(例: 1-3)")
        if page_range:
            try:
                start_page, end_page = map(int, page_range.split('-'))
                # ユーザーが入力した実際のPDFページ番号に基づいて処理するため、内部的なインデックスに合わせて1を引く
                start_page -= 1
                select_csv(path, start_page, end_page)
            except ValueError:
                tk.messagebox.showerror("エラー", "無効なページ範囲です。")

3. CSVファイルの保存先選択

ユーザーが変換後のCSVファイルを保存する場所を選択できるようにします。

def select_csv(pdf_path, start_page, end_page):
    messagebox.showinfo("保存先の選択", "変換されたCSVファイルの保存先を選択してください。")
    path = filedialog.asksaveasfilename(defaultextension=".csv", filetypes=[("CSV files", "*.csv")])
    if path:
        convert_pdf_to_csv(pdf_path, path, start_page, end_page)
        messagebox.showinfo("完了", "PDFファイルの変換が完了しました。")

4. PDFからCSVへの変換

pdfplumberを使ってPDFからデータを抽出し、csvモジュールでCSVファイルに書き出します。
PDFからマスタに必要な情報は表の最初の3列だけで、1列目が数字のみの行をCSVに書き込んでいます。これにより、特定の形式を持つデータのみを選択的にCSVに保存することができます。

def convert_pdf_to_csv(pdf_path, csv_path, start_page, end_page):
    with open(csv_path, 'w', newline='', encoding='Shift-JIS') as csvfile:
        writer = csv.writer(csvfile)
        with pdfplumber.open(pdf_path) as pdf:
            # end_pageの扱いについても実際のPDFページ番号に基づいて調整する
            for i in range(start_page, min(end_page, len(pdf.pages))):
                page = pdf.pages[i]
                table = page.extract_table()
                if table:
                    for row in table:
                        filtered_row = row[:3]
                        if filtered_row[0] is not None and re.match(r'^\d+$', str(filtered_row[0])):
                            writer.writerow(filtered_row)

5. メイン関数とプログラムの実行

def main():
    root = tk.Tk()
    root.withdraw()
    select_pdf()

if __name__ == "__main__":
    main()

実践的なアドバイス

このプロジェクトを通じて、医療従事者は診療マスタの更新作業を含む、多くの情報管理課題を解決できます。プロセスの自動化は、手作業によるエラーを減らし、業務の効率化に大きく寄与します。さらなる学習や応用には、pdfplumberのドキュメントを参照し、様々なデータ抽出のテクニックを探求することを推奨します。

この記事では、医療分野での具体的な問題解決を例に、Pythonを使ったPDFからCSVへのデータ変換プロセスの自動化方法を紹介しました。この技術は他の業界やシナリオでも応用可能であり、日々の業務をより効率的にするための強力なツールとなり得ます。

続きとして、PDFからCSVに変換したデータをさらに処理し、診療行為マスタCSVの列名に反映させる作業に焦点を当てます。このプロセスでは、先に抽出した列名情報CSVを使用し、診療行為マスタCSVに反映します。これにより、データの整合性を高め、さらには情報管理の効率化を実現します。

列名情報のマージと列の再順序

Pythonを用いて、列名情報が含まれるCSVと診療行為マスタデータが含まれるCSVを効果的にマージし、列の順序を整理する方法について解説します。この処理は、列名情報を正確にデータに反映させ、さらに列名CSVに基づいて列の順序を調整することを目的としています。

列名情報の適用

まず、列名情報CSVから列名を読み込み、それを診療行為マスタデータCSVの列名として適用します。このステップでは、2列目の値に基づいてソートされた列名をデータフレームに適用します。列名情報CSVを確認すると、2列目と3列目の値がそれぞれ列番号とそれに対応する項目名です。

import pandas as pd
from tkinter import filedialog
from tkinter import Tk

def select_file(prompt):
    root = Tk()
    root.withdraw()  # メインウィンドウを表示しない
    file_path = filedialog.askopenfilename(title=prompt)
    root.destroy()  # ダイアログ終了後にTkインスタンスを閉じる
    return file_path

def merge_and_reorder_columns(column_info_path, data_csv_path):
    column_info_df = pd.read_csv(column_info_path, header=None, encoding='Shift-JIS')
    data_df = pd.read_csv(data_csv_path, header=None, encoding='Shift-JIS')
    # 2列目の値に基づいてソートされた列名をデータフレームに適用   
    sorted_column_names = column_info_df.sort_values(by=1)[2].tolist()
    data_df.columns = sorted_column_names

列の再順序

次に、列情報CSVの2列目の値を新しい順序として使用し、列の並び替えを行います。このステップでは、列のインデックスに基づいてデータフレームを並び替えます。今回、列名に重複があるので、列名の代わりにインデックスを使用して並び替えを実施する必要があります。

    # 2列目の値を新しい順序として使用して、列の並び替えを行う
    # 2列目の値から1を引いて0ベースのインデックスに変換し、データフレームの列数に合わせる
    new_order = [i-1 for i in column_info_df[1] if i-1 < len(data_df.columns)]
    # 列のインデックスに基づいてデータフレームを並び替え
    reordered_df = data_df.iloc[:, new_order]
    return reordered_df

プログラムの実行

ユーザーインターフェースを通じてファイルを選択し、変換処理を実行します。処理完了後、マージされたデータを新しいCSVファイルとして保存します。

def main():
    column_info_path = select_file("列名情報が含まれるCSVファイルを選択してください")
    data_csv_path = select_file("マスタデータが含まれるCSVファイルを選択してください")
    reordered_df = merge_and_reorder_columns(column_info_path, data_csv_path)
    save_path = filedialog.asksaveasfilename(title="保存先を選択してください", defaultextension=".csv")

    if save_path:  # ユーザーがファイル保存場所を選択した場合
        reordered_df.to_csv(save_path, index=False, encoding='Shift-JIS')
        messagebox.showinfo("完了", "ファイルが正常にマージされ、列が再配置されました。")
    else:  # ユーザーがファイル保存をキャンセルした場合
        messagebox.showwarning("キャンセル", "ファイルの保存がキャンセルされました。")

if __name__ == "__main__":
    main()

このプログラムを実行することで、診療行為マスタCSVの列名をPDFから抽出した列名情報に基づいて更新し、さらに列の順序を調整します。これにより、データの整理と分析がさらに容易になります。

まとめ

この記事では、医療業界でのデータデジタル化の重要性と、特に診療報酬請求データの効率的な処理が医療従事者の負担軽減にどのように寄与するかを概説しました。現代医療では、膨大な量の文書を日々扱っており、これらの文書から必要なデータを抽出し、利便性の高い形式で保存することが求められています。しかし、PDF文書からデータを手動でCSVファイルに転記する作業は、非効率でエラーが発生しやすい問題を抱えています。

この問題に対する解決策として、Pythonを活用したPDFからCSVへのデータ変換プロセスを紹介しました。この自動化されたプロセスを通じて、”tensuhyo_01.pdf”から必要な診療マスタの項目名を直接抽出し、診療マスタデータベースの構築をより効率的かつ正確に進めることが可能になります。これにより、医療従事者の業務負担が大幅に軽減され、医療サービスの質の向上に貢献することが期待されます。

最後に、この技術は医療分野に限らず、他の業界やシナリオでも応用可能であり、日々の業務をより効率的にするための強力なツールとなり得ることを強調しました。Pythonの強力なライブラリを利用することで、手作業によるデータ転記の時間とエラーのリスクを削減し、業務の自動化と効率化を推進することが可能です。

よかったらシェアしてね!
  • URLをコピーしました!
目次