Python活用：PDFからCSVへ効率的にデータ変換

2024-10-04

URLをコピーしました！

プロジェクトの背景

医療業界でのデータのデジタル化は、正確な情報管理と迅速なアクセスが患者ケアの質を向上させる上で重要です。診療報酬請求データの効率的な処理により、医療従事者の業務負担が軽減されますが、PDF文書からのデータ抽出は時間がかかりエラーが発生しやすい作業です。

この課題に対して、医療現場で働く知り合いから、診療行為マスタcsvには列名情報が欠落しており、PDF文書からの転記作業を回避したいという相談を受け、Pythonを用いたPDFからCSVへのデータ変換プロセスを提案しました。この方法により、”tensuhyo_01.pdf”から必要な情報を直接抽出し、診療マスタデータベースの構築を効率的かつ正確に行うことが可能になり、医療従事者の負担を大きく軽減します。

Pythonの強力なライブラリを活用して自動化することで、手作業によるデータ転記の時間とエラーを削減し、作業の質向上に貢献できます。

リンク

必要なモジュールとデータの紹介

この自動化プロセスには、以下のPythonモジュールが必要です。

pdfplumber: PDFファイル内のテキストや表を抽出する強力なライブラリです。内部的にPDFの構造を解析し、必要なデータを効率的に抽出することが可能です。
tkinter: Pythonに標準で含まれるGUIツールキットで、ユーザーフレンドリーなファイル選択ダイアログを簡単に作成できます。
re: 正規表現を用いて、抽出したデータから必要な情報を選別するための標準ライブラリです。
pandas: データ分析と操作に特化した強力なライブラリです。表形式のデータを効率的に処理し、データの読み込み、変換、保存などを簡単に行うことができます。データフレームという強力なデータ構造を用いて、複雑なデータ操作や分析を容易に実行できます。
PDF:tensuhyo_01.pdf 診療行為マスタの列名抽出に必要。（今回は、10ページから13ページ）
csv:R06_s.csv 診療行為マスタcsv

ステップバイステップの変換プロセス

1. モジュールのインポート

最初に、必要なモジュールをインポートします。

import tkinter as tk
from tkinter import filedialog, messagebox, simpledialog
import pdfplumber
import csv
import re

2. PDFファイルの選択とページ範囲の指定

ユーザーがPDFファイルを選択し、処理するページ範囲を指定できるよう、tkinterのダイアログ機能を用います。今回の例では必要な情報は10から13ページになります。

def select_pdf():
    messagebox.showinfo("PDFをCSVに変換", "PDFファイルを選択してください。次に、処理するページ範囲を指定します。")
    path = filedialog.askopenfilename(filetypes=[("PDF files", "*.pdf")])
    if path:
        page_range = simpledialog.askstring("ページ範囲の入力", "処理するページ範囲を入力してください（例: 1-3）")
        if page_range:
            try:
                start_page, end_page = map(int, page_range.split('-'))
                # ユーザーが入力した実際のPDFページ番号に基づいて処理するため、内部的なインデックスに合わせて1を引く
                start_page -= 1
                select_csv(path, start_page, end_page)
            except ValueError:
                tk.messagebox.showerror("エラー", "無効なページ範囲です。")

3. CSVファイルの保存先選択

ユーザーが変換後のCSVファイルを保存する場所を選択できるようにします。

def select_csv(pdf_path, start_page, end_page):
    messagebox.showinfo("保存先の選択", "変換されたCSVファイルの保存先を選択してください。")
    path = filedialog.asksaveasfilename(defaultextension=".csv", filetypes=[("CSV files", "*.csv")])
    if path:
        convert_pdf_to_csv(pdf_path, path, start_page, end_page)
        messagebox.showinfo("完了", "PDFファイルの変換が完了しました。")

4. PDFからCSVへの変換

pdfplumberを使ってPDFからデータを抽出し、csvモジュールでCSVファイルに書き出します。
PDFからマスタに必要な情報は表の最初の3列だけで、1列目が数字のみの行をCSVに書き込んでいます。これにより、特定の形式を持つデータのみを選択的にCSVに保存することができます。

def convert_pdf_to_csv(pdf_path, csv_path, start_page, end_page):
    with open(csv_path, 'w', newline='', encoding='Shift-JIS') as csvfile:
        writer = csv.writer(csvfile)
        with pdfplumber.open(pdf_path) as pdf:
            # end_pageの扱いについても実際のPDFページ番号に基づいて調整する
            for i in range(start_page, min(end_page, len(pdf.pages))):
                page = pdf.pages[i]
                table = page.extract_table()
                if table:
                    for row in table:
                        filtered_row = row[:3]
                        if filtered_row[0] is not None and re.match(r'^\d+$', str(filtered_row[0])):
                            writer.writerow(filtered_row)

5. メイン関数とプログラムの実行

def main():
    root = tk.Tk()
    root.withdraw()
    select_pdf()

if __name__ == "__main__":
    main()

実践的なアドバイス

このプロジェクトを通じて、医療従事者は診療マスタの更新作業を含む、多くの情報管理課題を解決できます。プロセスの自動化は、手作業によるエラーを減らし、業務の効率化に大きく寄与します。さらなる学習や応用には、pdfplumberのドキュメントを参照し、様々なデータ抽出のテクニックを探求することを推奨します。

この記事では、医療分野での具体的な問題解決を例に、Pythonを使ったPDFからCSVへのデータ変換プロセスの自動化方法を紹介しました。この技術は他の業界やシナリオでも応用可能であり、日々の業務をより効率的にするための強力なツールとなり得ます。

続きとして、PDFからCSVに変換したデータをさらに処理し、診療行為マスタCSVの列名に反映させる作業に焦点を当てます。このプロセスでは、先に抽出した列名情報CSVを使用し、診療行為マスタCSVに反映します。これにより、データの整合性を高め、さらには情報管理の効率化を実現します。

列名情報のマージと列の再順序

Pythonを用いて、列名情報が含まれるCSVと診療行為マスタデータが含まれるCSVを効果的にマージし、列の順序を整理する方法について解説します。この処理は、列名情報を正確にデータに反映させ、さらに列名CSVに基づいて列の順序を調整することを目的としています。

列名情報の適用

まず、列名情報CSVから列名を読み込み、それを診療行為マスタデータCSVの列名として適用します。このステップでは、2列目の値に基づいてソートされた列名をデータフレームに適用します。列名情報CSVを確認すると、2列目と3列目の値がそれぞれ列番号とそれに対応する項目名です。

import pandas as pd
from tkinter import filedialog
from tkinter import Tk

def select_file(prompt):
    root = Tk()
    root.withdraw()  # メインウィンドウを表示しない
    file_path = filedialog.askopenfilename(title=prompt)
    root.destroy()  # ダイアログ終了後にTkインスタンスを閉じる
    return file_path

def merge_and_reorder_columns(column_info_path, data_csv_path):
    column_info_df = pd.read_csv(column_info_path, header=None, encoding='Shift-JIS')
    data_df = pd.read_csv(data_csv_path, header=None, encoding='Shift-JIS')
    # 2列目の値に基づいてソートされた列名をデータフレームに適用   
    sorted_column_names = column_info_df.sort_values(by=1)[2].tolist()
    data_df.columns = sorted_column_names

列の再順序

次に、列情報CSVの２列目の値を新しい順序として使用し、列の並び替えを行います。このステップでは、列のインデックスに基づいてデータフレームを並び替えます。今回、列名に重複があるので、列名の代わりにインデックスを使用して並び替えを実施する必要があります。

    # 2列目の値を新しい順序として使用して、列の並び替えを行う
    # 2列目の値から1を引いて0ベースのインデックスに変換し、データフレームの列数に合わせる
    new_order = [i-1 for i in column_info_df[1] if i-1 < len(data_df.columns)]
    # 列のインデックスに基づいてデータフレームを並び替え
    reordered_df = data_df.iloc[:, new_order]
    return reordered_df

プログラムの実行

ユーザーインターフェースを通じてファイルを選択し、変換処理を実行します。処理完了後、マージされたデータを新しいCSVファイルとして保存します。

def main():
    column_info_path = select_file("列名情報が含まれるCSVファイルを選択してください")
    data_csv_path = select_file("マスタデータが含まれるCSVファイルを選択してください")
    reordered_df = merge_and_reorder_columns(column_info_path, data_csv_path)
    save_path = filedialog.asksaveasfilename(title="保存先を選択してください", defaultextension=".csv")

    if save_path:  # ユーザーがファイル保存場所を選択した場合
        reordered_df.to_csv(save_path, index=False, encoding='Shift-JIS')
        messagebox.showinfo("完了", "ファイルが正常にマージされ、列が再配置されました。")
    else:  # ユーザーがファイル保存をキャンセルした場合
        messagebox.showwarning("キャンセル", "ファイルの保存がキャンセルされました。")

if __name__ == "__main__":
    main()

このプログラムを実行することで、診療行為マスタCSVの列名をPDFから抽出した列名情報に基づいて更新し、さらに列の順序を調整します。これにより、データの整理と分析がさらに容易になります。

まとめ

この記事では、医療業界でのデータデジタル化の重要性と、特に診療報酬請求データの効率的な処理が医療従事者の負担軽減にどのように寄与するかを概説しました。現代医療では、膨大な量の文書を日々扱っており、これらの文書から必要なデータを抽出し、利便性の高い形式で保存することが求められています。しかし、PDF文書からデータを手動でCSVファイルに転記する作業は、非効率でエラーが発生しやすい問題を抱えています。

この問題に対する解決策として、Pythonを活用したPDFからCSVへのデータ変換プロセスを紹介しました。この自動化されたプロセスを通じて、”tensuhyo_01.pdf”から必要な診療マスタの項目名を直接抽出し、診療マスタデータベースの構築をより効率的かつ正確に進めることが可能になります。これにより、医療従事者の業務負担が大幅に軽減され、医療サービスの質の向上に貢献することが期待されます。

最後に、この技術は医療分野に限らず、他の業界やシナリオでも応用可能であり、日々の業務をより効率的にするための強力なツールとなり得ることを強調しました。Pythonの強力なライブラリを利用することで、手作業によるデータ転記の時間とエラーのリスクを削減し、業務の自動化と効率化を推進することが可能です。

プログラミング初心者におすすめ！「スッキリわかるPython入門第2版」

プログラミングに興味があるけれど、何から始めればいいかわからない方に最適な一冊が「スッキリわかるPython入門第2版」です。以下のポイントを参考にしてください。

本書の特徴とメリット

シリーズ累計90万部突破
多くの読者に支持され、信頼されている大人気入門書の改訂版。
初心者でもわかりやすい解説
基本的な「コツ」を丁寧に説明し、迷わず学習を進められます。
実践的な「しくみ」の理解
プログラミングの基礎だけでなく、実際の開発に役立つ知識を習得可能。
「落とし穴」の回避
初心者が陥りがちな間違いをカバーし、安心して学習を進められる内容。

実際の読者の声

現役プログラミング教室の先生も推薦！
「この本を読んでPCスキルをマスターすれば、それでメシを食えますよ」という評価もあるほどの内容。面白くて勉強になるとの声が多い。

この機会に「スッキリわかるPython入門第2版」を手に入れ、プログラミングの世界に一歩踏み出しましょう。下のリンクをクリックして、詳細をチェックしてみてください！

リンク

テックジムの経験が詰まったPythonプログラミング講座

プログラミング教育において、多くの初学者が挫折する理由をご存じでしょうか？実は、それには多くの共通点があります。テックジムは、その問題点を深く理解し、20年以上にわたって蓄積してきた経験をもとに、誰もが安心して学べるプログラミング講座を提供しています。

テックジムは、ただの学習場ではありません。プログラミングを始めたい方や、より高いレベルに達したい方々に向けた、実践的な学びの場です。私たちが提供するカリキュラムは、初心者が直面する課題や躓きやすいポイントを徹底的に研究し、それを解決するためにデザインされています。

多くのプログラミングスクールが、フレームワークや複雑な技術から始めることで、学習者に過度な負担をかけ、結果として挫折を生む原因となっています。テックジムでは、まずは本当に重要な基礎からスタートすることで、無理なくスキルを積み上げていくことができます。例えば、関数やクラスといったプログラミングの核心部分をしっかりと理解し、それを使いこなすための時間を十分に確保しています。

これにより、受講生たちは無駄な混乱を避け、確実にスキルを身につけていくことができるのです。テックジムでの学びは、単なる知識の詰め込みではなく、実際に「できる」ことを目指した実践的なトレーニングです。

テックジムのPythonプログラミング講座は、経験と実績が詰まった講座です。初心者でも安心して参加でき、確実にステップアップできるこの講座で、あなたもプログラミングの世界に飛び込んでみませんか？

挫折を防ぐカリキュラム

プログラミング学習に挑戦した多くの人が、途中で挫折してしまうことがあります。これは、難解なフレームワークや複雑な概念にいきなり取り組むことが主な原因です。しかし、テックジムではそのような挫折を未然に防ぐため、独自のカリキュラムを採用しています。

テックジムのカリキュラムは、まず基礎をしっかりと固めることから始めます。関数やクラスといったプログラミングの根幹をじっくり学ぶことで、無駄な負荷をかけずに確実にスキルを身につけることができます。このアプローチにより、学習者は「何をやっているのかわからない」という混乱を避け、自信を持って次のステップに進むことができます。

また、テックジムでは、段階的にスキルを積み上げることで、学習の進行に伴う負担を最小限に抑えています。その結果、無理なく、着実にプログラミングの世界で成功を収めることができるのです。

テックジムのプログラミング講座は、学ぶことの楽しさを実感しながら、挫折せずに成長できる最適な環境を提供します。

最新の技術と経験豊富なサポートの融合

プログラミング学習において、最新技術の活用は欠かせません。テックジムでは、ChatGPTを用いた学習サポートを取り入れています。ChatGPTは、あらゆる質問に即座に答え、コードのバグ解決もスムーズにサポートします。これにより、効率的に学習を進めることが可能です。

しかし、テックジムの強みは、これだけではありません。どんなに優れたAIでも、人間のコーチによる個別サポートの価値は計り知れません。テックジムでは、経験豊富なプロのコーチがあなたの学習を支えます。プログラミングの基礎から応用まで、丁寧な指導と的確なフィードバックを提供し、あなたが抱える疑問や課題を一つ一つ解決していきます。

このように、最新の技術とプロのコーチングを組み合わせることで、テックジムでは、効率的でありながらも確実にスキルを身につけることができる学習環境を提供しています。

テックジムで学びながら、最先端のAI技術とプロの指導のベストな融合を体験してみませんか？

成果を実感できるカリキュラム

テックジムのPythonプログラミング講座は、その効果と実績で多くの受講生から高い評価を受けています。8月には180名を超える方々がこの講座にエントリーし、その人気と信頼の高さを証明しています。

この講座では、受講生が着実にスキルを身につけ、成長していることを実感できるカリキュラムを提供しています。プログラミングの基礎から実践的な応用まで、段階的に学べる内容は、初心者から経験者まで幅広く対応しています。また、学んだ知識をすぐに実践に移せる環境を整えており、学習の成果をリアルタイムで確認できるのも大きな特徴です。

テックジムの講座を受講した多くの方々が、「理解が深まった」「自信を持ってコードを書けるようになった」といった喜びの声を寄せています。これまでに培った経験と実績を活かし、受講生一人ひとりが成功への第一歩を踏み出せるよう全力でサポートしています。

あなたも、この成果を実感できるカリキュラムで、プログラミングスキルを確実に伸ばしてみませんか？

まずは無料体験からスタート！

プログラミングに興味はあるけれど、いきなり本格的な学習に踏み出すのは少し不安…そんな方に最適なのが、テックジムの無料体験です。まずは気軽に始めてみたい、という方のために、テックジムではデモレッスンを提供しています。

この無料体験では、実際のカリキュラムの一部を体験し、学習の進め方や講師のサポートを実感することができます。受講前に「自分に合っているかどうか」を確認できるので、安心してスタートを切ることができます。

プログラミングが全く初めての方も、すでにある程度の経験を持っている方も、まずはこの無料体験で、テックジムの学びを体感してみませんか？今すぐ始める一歩が、あなたの未来を大きく変えるかもしれません。

無料体験は随時開催中です。ぜひこの機会に、新たなスキルを手に入れるための第一歩を踏み出してみてください！