Performance Evaluation of the Generative Pre-trained Transformer (GPT-4) on the Family Medicine In-Training Examination | American Board of Family Medicine

American Board of Family Medicine

Article Figures & Data

Figures

Tables

Download figure
Open in new tab
Figure 1.
The key element of Python code to use GPT-4 API.
Download figure
Open in new tab
Figure 2.
Example of user inquiry with “Instruct” and “Prompt” components and GPT-4’s response.
Download figure
Open in new tab
Figure 3.
Response pattern of GPT (GPT-4 on the left panel and GPT-3.5 on the left panel) ordered by item difficulty. Green dots indicate correct responses. Red circles indicate incorrect response.
Download figure
Open in new tab
Figure 4.
One example of Chain-of-thought prompt.
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab
Download figure
Open in new tab

Tables

Figures

View popup
Table 1.
Correct Percentage and Scaled Score for GPT-3.5 and GPT-4, in Comparison with National Residents' Performance
Correct Percentage Scaled Score
GPT-3.5 56% 280
National PGY-1 Average 61% 336
National PGY-2 Average 66% 397
National PGY-3 Average 68% 433
GPT-4 84% 690

In this issue

Print

Related Articles

Cited By...

Google Scholar

More in this TOC Section

Show more Original Research

Similar Articles

Keywords